Wikili
wikidb
http://www.lbgi.fr/wikili/index.php/Main_Page
MediaWiki 1.30.0
first-letter
Media
Special
Talk
User
User talk
Wikili
Wikili talk
File
File talk
MediaWiki
MediaWiki talk
Template
Template talk
Help
Help talk
Category
Category talk
Main Page
0
1279
1279
2006-01-10T17:15:04Z
130.79.78.212
0
Page de bienvenue
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du LBGI (Laboratoire de BioInformatique et Génomique Intégratives)
90b4e50644c576db1fcab864e40c4b55ffe6e55e
1280
1279
2006-01-10T17:16:12Z
130.79.78.212
0
Page de bienvenue
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
04786a476165f2842f31db34654f8724449abd10
1290
1280
2006-02-07T16:07:46Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Tout sur [[UCSGGenomes]]
71f902381aa9f93d0435a88d64b311bb3e807ab4
1295
1290
2006-03-22T09:20:08Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Tout sur [[UCSGGenomes]]
Ou en est le serveur [[Kilida]]
1ac8c81ffa5cd43dba7b029375a913a6de69a0f2
1302
1295
2006-03-22T09:34:56Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSGGenomes]]
259cc64d6e23a93d32085948097b8c2c352b0703
1311
1302
2006-03-22T10:17:44Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
13bb04f6c6a480b9ec596cb126c52561fe7b3447
1313
1311
2006-03-22T10:22:02Z
130.79.77.132
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
29925f8be329489cac797f4b4bce7e6e2b4dbfb2
1315
1313
2006-03-22T14:31:24Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
[[Alvinella]]
e93837b9b3d0a7f2e6367100b5716b42ac55fbe3
1316
1315
2006-03-22T16:51:28Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
[[Alvinella]]
[[Fed]] Federating data
9d65aaf8a8c43e8137eb84e83c5cd802815c4428
1326
1316
2006-04-04T12:19:25Z
130.79.77.57
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
[[Alvinella]]
[[Fed]] Federating data
coucou
adc8a6ba3298e85e2450c8fe8a3f4e8fd8d969d6
LBGI
0
1280
1281
2006-01-10T17:18:25Z
130.79.78.212
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [Olivier Poch]
et toute la tribu
8d7389563cde362a5fdbe2925e93391cc5a2f461
1282
1281
2006-01-10T17:23:34Z
130.79.78.212
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [http://alnitak.u-strasbg.fr Olivier Poch]
et toute la tribu
1c3891f029244f61a9bd67d6782e47a83bc298fd
1283
1282
2006-01-10T17:24:24Z
130.79.78.212
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
73779cd8a2930de1fb13d1cdd930cd4a3ac91280
1284
1283
2006-01-10T17:24:47Z
130.79.78.212
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
ef63256596f27ac769c0a20618a0bc83791a1d62
1285
1284
2006-01-10T17:26:37Z
130.79.76.57
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
éditeur [[Laëtitia]].
472f1912bbc2373bdbc544f1a891a9425dfb280a
1287
1285
2006-01-10T17:27:34Z
130.79.76.57
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Grand Chef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
Le Wiki de [[Laëtitia]].
db4d1820ce4735ea311f3a83eaa444980e9791e5
1289
1287
2006-01-10T17:29:50Z
130.79.76.57
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
Le Wiki de [[Laëtitia]].
46f419e5778bb6d36e6ed57de7ed18b55af8060e
Laëtitia
0
1281
1286
2006-01-10T17:26:56Z
130.79.76.57
0
wikitext
text/x-wiki
Coucou, c'est moi.
55e47cb313e2cc45bff15e508daa69d45d1ef4b5
1288
1286
2006-01-10T17:28:56Z
130.79.76.57
0
wikitext
text/x-wiki
Coucou, c'est moi.
Ma [http://alnitak.u-strasbg.fr/~poidevin page] du labo.
a24b69c24640281077f5c6748589101607be83f4
UCSGGenomes
0
1282
1291
2006-02-07T16:12:19Z
130.79.78.212
0
wikitext
text/x-wiki
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
[[Gscope]] fournit des foonctions
LocUcsc ListOf Access return la liste des Access
LocUcsc ListOfMouse Access return la liste de Access pour Mouse only
LocUcsc ListOfMouse Access return la liste de Access pour Mouse only
d8885987a5fc6cd6cb26f388760eac0514a19b6f
1292
1291
2006-02-07T16:12:48Z
130.79.78.212
0
wikitext
text/x-wiki
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
[[Gscope]] fournit des foonctions
LocUcsc ListOf Access return la liste des Access
LocUcsc ListOfMouse Access return la liste des Access pour Mouse only
LocUcsc ListOfMouse Access return la liste des Access pour Mouse only
f92196cb74b8743ff1310528edf792c1d2b1c38b
1293
1292
2006-02-07T16:13:19Z
130.79.78.212
0
wikitext
text/x-wiki
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
[[Gscope]] fournit des foonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
302c4cc1b52d5072779917cf8e2d327a8c721350
1294
1293
2006-02-07T16:15:09Z
130.79.78.212
0
wikitext
text/x-wiki
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
f4d6d4228b60e4567c8d164c7024a3e56cb9b7e2
Kilida
0
1283
1296
2006-03-22T09:25:24Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
Kilida est un PC AMD Opteron qui tourne sous Fedora 4
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local
qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
92ef77e972628e39d464981f3970f725d8f17dd2
1297
1296
2006-03-22T09:27:59Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
Kilida est un PC AMD Opteron qui tourne sous Fedora 4
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local
qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
Qu'y avait-il dans FC4 que nous utilisons pour le site ?
*/etc/httpd avec apache et php
*mysql
*postgresql
ba30484291ad70702dde2f043acc94991d9e0904
1298
1297
2006-03-22T09:28:50Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
Kilida est un PC AMD Opteron qui tourne sous Fedora 4
Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/>
Au 22 mars 2006 rien de plus que le système n'a été installé sauf /usr/local
qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
Qu'y avait-il dans FC4 que nous utilisons pour le site ?<br/>
*/etc/httpd avec apache et php
*mysql
*postgresql
72b1c00d0f1c90fbc7607e7927db869669b80d6e
1299
1298
2006-03-22T09:30:03Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
Kilida est un PC AMD Opteron qui tourne sous Fedora 4
Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/>
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
Qu'y avait-il dans FC4 que nous utilisons pour le site ?<br/>
*/etc/httpd avec apache et php
*mysql
*postgresql
48cde699c88a9942b55159b9200e720e4f0ac9c2
1300
1299
2006-03-22T09:30:52Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.<br/>
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
*/etc/httpd avec apache et php
*mysql
*postgresql
b8133119ff785ba285b55f3d6788bb634be8b1ea
1301
1300
2006-03-22T09:31:30Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
a363eed36776b294a9844cd304f531392a61b3b0
1303
1301
2006-03-22T09:40:49Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le LBGI
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
51c3111b22a99e0e918333e77ed169a272afb92f
1304
1303
2006-03-22T09:41:50Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://lbgi.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
14a8d62f35855c2118dbb99f38a3165865434c6a
1305
1304
2006-03-22T09:42:27Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partigé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
d77ad6af812d0220982cd9af9cc562e2cb973dc9
1306
1305
2006-03-22T09:42:57Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
61ee0125cd76f25b133e48c764fde784af379ea2
1307
1306
2006-03-22T09:51:26Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
* on a copié toute l'arborescence de Genoret sur /homeKilida il n'est évidemment pas à jour.
1c3649864a7764fc5b86c47a99a34ae2d588979e
1308
1307
2006-03-22T09:52:07Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur /homeKilida il n'est évidemment pas à jour.
9a2a3e860c51cb35979a11a4c2120905d4e0904d
1309
1308
2006-03-22T09:53:44Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir des problèmes de superposition de lsoft entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur /homeKilida .
Attention il n'est évidemment pas à jour.
eb427715c35f88ac779a12eee9395eb92178746d
1310
1309
2006-03-22T09:54:11Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur /homeKilida .
Attention il n'est évidemment pas à jour.
a2a6ad79e3d20d99a01643203611bf8e944701fd
1321
1310
2006-04-04T12:13:35Z
130.79.77.57
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur /homeKilida .
Attention il n'est évidemment pas à jour.
ca6b642220ea0f1396b39cec162c3927c37067bc
1322
1321
2006-04-04T12:14:12Z
130.79.77.57
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur [[/homeKilida]] .
Attention il n'est évidemment pas à jour.
bcb5eed9ba6b6908d367f4463aa1842d0de10ff0
1324
1322
2006-04-04T12:15:42Z
130.79.77.57
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
1daff4f5e1aa7a4d0dc55517f9ceeed8e9fe313b
1327
1324
2006-04-24T09:34:28Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour par yum update le 24/04/2006
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
c14b88ccd0403b72f64858cb006ca5554de1f6db
1328
1327
2006-04-24T09:35:40Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour par yum update le 24/04/2006
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
202985aac03090e4595a7776029152e22be06e45
1329
1328
2006-04-24T11:52:29Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour par le 24/04/2006 par
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
ab3a80fc5febde592f965fa86eee260a74fbff54
UCSCGenomes
0
1284
1312
2006-03-22T10:18:51Z
Ripp
1
wikitext
text/x-wiki
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
f4d6d4228b60e4567c8d164c7024a3e56cb9b7e2
Fed
0
1286
1317
2006-03-22T16:55:10Z
Ripp
1
wikitext
text/x-wiki
We plan to create Fed as a tool combining a Website and a Sql Relational Database
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It should allow to manage
* people
* worpackages
* components
* centres
c36ac6fe24c3cd297a59241bf70b10860e7bf642
1318
1317
2006-04-04T09:21:20Z
130.79.78.212
0
wikitext
text/x-wiki
We plan to create Fed as a tool combining a Website and a Sql Relational Database
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It should allow to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
c3dc2343c6834618c833172807c239dfeed01e43
Gscope
0
1287
1319
2006-04-04T09:32:47Z
130.79.78.212
0
wikitext
text/x-wiki
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
7a4e0d21a92237cf5a9b83d0bd9c40656d382b34
1320
1319
2006-04-04T09:43:42Z
130.79.78.212
0
wikitext
text/x-wiki
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information trhough a web based interface
8f59e3659ff073f98edf0a93876b64608093920d
/homeKilida
0
1288
1323
2006-04-04T12:14:52Z
130.79.77.57
0
wikitext
text/x-wiki
/hoeKIlida est le disque local de Kilida
de5331e2377475350bc05291cf1618b36d8a71e8
HomeKilida
0
1289
1325
2006-04-04T12:16:02Z
130.79.77.57
0
wikitext
text/x-wiki
/homeKilida est le disque local
c34a27602ef138186d5ddda5ae578bd4b43feb74
Kilida
0
1283
1330
1329
2006-04-24T11:52:49Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
db271f0a84d39f6afc062d2772d117199ef12945
1342
1330
2006-05-02T14:54:05Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida veut dire oeil en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE)
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* on fera bientôt l'upgrade en FC5
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
d08a86f663e3d41e85b4a0cd6721938447809080
1343
1342
2006-05-02T14:56:38Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE)
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* on fera bientôt l'upgrade en FC5
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
816196799db4e9d0de4eb5522a588a643cdc24a4
1344
1343
2006-05-02T15:18:38Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on fera bientôt l'upgrade en FC5
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
bfd76fcf948314f083e8bb8ec7afba832a224b0d
1351
1344
2006-05-04T07:56:55Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Wikili est le wiki de Kilida
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on fera bientôt l'upgrade en FC5
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
f47f7618161796c120dd159bd8bcfef4b079ce09
1356
1351
2006-05-11T07:40:15Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
==Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]==
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
=='''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''==
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Wikili est le wiki de Kilida
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on fera bientôt l'upgrade en FC5
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
3e1bbb0f38eaa4efc95a235b52b0db985530ed54
1357
1356
2006-05-11T07:42:36Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Wikili est le wiki de Kilida
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on fera bientôt l'upgrade en FC5
* [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]]
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
bfdb937f6f392146b147f09d4925302c4b94756d
Main Page
0
1279
1331
1326
2006-04-24T12:07:53Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
[[Alvinella]]
[[Fed]] Federating data
[[CADO4MI
]]
9331e2e86dfe2587598d74a968e20d0adb062865
1332
1331
2006-04-24T12:08:05Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsim]]
[[Alvinella]]
[[Fed]] Federating data
[[CADO4MI]]
c1db89efb88d65b565ca2a1bb1b1d77f5b255189
1336
1332
2006-04-24T12:12:58Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsims]]
[[Alvinella]]
[[Fed]] Federating data
[[CADO4MI]]
30735124633ece0bc086e586e60cdb00ec459a8f
1345
1336
2006-05-03T08:38:36Z
130.79.76.150
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsims]]
[[Alvinella]]
[[Fed]] Federating data
[[CADO4MI]]
[[Magos]]
9d48232efc979f05011e0b13d8ec544f7c22feef
1348
1345
2006-05-04T07:45:16Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
Où en est le serveur [[Kilida]]
Tout sur [[UCSCGenomes]]
[[Macsims]]
[[Alvinella]]
[[Fed]] Federating data
[[CADO4MI]]
[[Magos]]
[[Java]]
a7eed920048b9e168700399645af1cffd0074c49
1363
1348
2006-05-15T13:17:36Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
6ed756ea7a4f3643fe106599f521fee9203e2643
1364
1363
2006-05-15T13:17:51Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
e8ba0cb2171936c8e4c089470e8b4157102f72dd
1365
1364
2006-05-15T13:18:17Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
28be8710f1b5220bff333f32c54d8ce2bcfeb41e
1366
1365
2006-05-15T13:23:22Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
1a3938043653f115527466d029948502e8f5457b
CADO4MI
0
1290
1333
2006-04-24T12:09:53Z
130.79.78.212
0
wikitext
text/x-wiki
'''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray
217f0bdd8b4dc3636f96ff939d950ad2b4f6d495
1334
1333
2006-04-24T12:10:48Z
130.79.78.212
0
wikitext
text/x-wiki
'''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray
website [http://bips.u-strasbg.fr/CADO4MI]
14393e2f6ad0a804af5dc6094687c30abf98a509
1335
1334
2006-04-24T12:11:22Z
130.79.78.212
0
wikitext
text/x-wiki
'''CADO4MI''' '''C'''omputer '''A'''ssisted '''D'''esign of '''O'''ligonucleotides '''for''' '''MI'''croarray
see the [http://bips.u-strasbg.fr/CADO4MI website]
54456e33044fbb2b0ff013d8ae515984fcf05b38
HomeKilida
0
1289
1340
1325
2006-04-24T12:19:36Z
130.79.78.212
0
wikitext
text/x-wiki
/homeKilida est le disque local de Kilida
On s'en sert actuellement pour être sûr de ne pas interférer avec les infos des autres disueq et machines.
a55d480e301276cd39a0886b34d25f3472337a2d
1341
1340
2006-04-24T12:19:55Z
130.79.78.212
0
wikitext
text/x-wiki
/homeKilida est le disque local de Kilida
On s'en sert actuellement pour être sûr de ne pas interférer avec les infos des autres disques et machines.
5672077e5638303b82f4ef203de4ef27c8d43a2b
Java
0
1293
1349
2006-05-04T07:45:33Z
130.79.78.212
0
wikitext
text/x-wiki
lkslksl
e08db34d22e71c75607a04987519df534f28ecac
1350
1349
2006-05-04T07:47:33Z
130.79.77.179
0
wikitext
text/x-wiki
langue
59797c0e68c3d058183ecab60152c9dbd1abaf75
1352
1350
2006-05-04T08:01:09Z
130.79.77.179
0
wikitext
text/x-wiki
language de programmation orienté objet.
==sources internes==
*Lancement de programme externe a partir de java
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
16ae79c2c9c4024d51e2fd841f210f1bf7327c29
1353
1352
2006-05-04T08:12:00Z
130.79.77.179
0
wikitext
text/x-wiki
language de programmation orienté objet.
==sources internes==
*Lancement de programme externe a partir de java
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
5542bcc7ac57bf414644f5577f169ee05609445e
1354
1353
2006-05-04T08:25:23Z
130.79.77.179
0
wikitext
text/x-wiki
langage de programmation orienté objet.
==sources internes==
*Lancement et synchronisation de programmes externe a partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
64de4663238fab56300791b44cd51c8004944874
1355
1354
2006-05-04T08:25:49Z
130.79.77.179
0
wikitext
text/x-wiki
langage de programmation orienté objet.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Exemple d'utilisation]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
81cb1a20b3b19ef3957fc93e13a3237ebe32af00
Installation de Tcl/Tk
0
1294
1358
2006-05-11T07:44:22Z
130.79.78.212
0
wikitext
text/x-wiki
Sur Kilida il y avait bien sûr le Tcl/Tk de /usr/local
mais R voulait le package libtk8.4.so
Il suffit de faire yum install tk
et ce cher yum cherche ce qu'il faut où il faut.
Merci Nicolas Gagnière.
a0ebfaa5a677a5f1525ad9fa26847379b5edc50f
1359
1358
2006-05-11T07:44:42Z
130.79.78.212
0
wikitext
text/x-wiki
Sur Kilida il y avait bien sûr le Tcl/Tk de /usr/local
mais R voulait le package libtk8.4.so
Il suffit de faire yum install tk
et ce cher yum cherche ce qu'il faut où il faut.
Merci à Nicolas Gagnière.
279e8f6a4b8dc394e26e33b575f1c1df5ae80457
Installation de R
0
1295
1360
2006-05-11T07:47:01Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
il fallait installer tk.8.4.so avant (voir [[Installation Tcl/Tk]])
818712791f54a71f61cf18e7b1568ba41e03e6fb
1361
1360
2006-05-11T07:47:35Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
d5d1951f111f7202437163f032ba3c81e2bfc2ec
1379
1361
2006-05-18T15:30:52Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
dans R
> source("http://www.bioconductor.org/biocLite.R")
> biocLite()
98c8cccb67e8e12994dc57b7cc907b9225ca8cf4
1380
1379
2006-05-18T15:31:34Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
# rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
## il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
# dans R
## > source("http://www.bioconductor.org/biocLite.R")
> biocLite()
5036e3a4e988e3b213e726dacad95f2ae7be39cd
1381
1380
2006-05-18T15:32:11Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
* rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
* dans R
** > source("http://www.bioconductor.org/biocLite.R")
** > biocLite()
428b5e0378f80fa602fbd6a890819065b5cfaba2
1382
1381
2006-05-18T15:40:15Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
* rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
* dans R
** > source("http://www.bioconductor.org/biocLite.R")
** > biocLite()
** > source("http://www.bioconductor.org/getBioC.R")
** > getbioC()
e321f365cce94c207cedebf43455db1dbd0b4e26
1383
1382
2006-05-19T07:50:46Z
130.79.78.212
0
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
* rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
* dans R
** > source("http://www.bioconductor.org/biocLite.R")
** > biocLite()
** > source("http://www.bioconductor.org/getBioC.R")
** > getbioC()
* pour les packages de R
** R CMD INSTALL ~ripp/vrac/aws_1.3-2.tar.gz
** R CMD INSTALL R_PACKAGES/GLAD_1.3.0.tar.gz
** R CMD INSTALL R_PACKAGES/MANOR_1.3.0.tar.gz
** R CMD INSTALL R_PACKAGES/cluster_1.10.2.tar.gz
** R CMD INSTALL R_PACKAGES/Hmisc_3.0-7.tar.gz
ad9c3bb31375aae2ff9da2f44cdf68dfd6e744af
Installation de CAPweb
0
1296
1362
2006-05-11T07:52:10Z
130.79.78.212
0
wikitext
text/x-wiki
CAPweb
# detarer dans /x/CAPweb_1.1
# modifier dans configure_CAPweb_variables.sh /usr/bin/bash et le rep destination
# lancer en root configure_CAPweb_variables.sh
# puis installer la database
## il faut mettre -p dans mysql -u root -p ...
## il faut rajouter session_start() en ligne 2 dans les .php où figure $_SESSION (Gscope CorrigeCAPweb le fait en automatique)
1ae1bfe0e5b21e9a1274bf13460446877acc7510
Source de données
0
1297
1367
2006-05-15T13:27:14Z
130.79.78.212
0
wikitext
text/x-wiki
Où sont stockées nos données, et comment y accéder :
* Les projets Gscope
** [[UCSCGenome]]
** [[ProGS]]
** [[RetChip]]
** [[RetGene]]
**
* Les bases de données SQL
** [[Genoret Database]]
** [[Retinobase]]
473788aa921d8b79a9477eee702d54768cb932d6
1368
1367
2006-05-15T13:28:04Z
130.79.78.212
0
wikitext
text/x-wiki
Où sont stockées nos données, et comment y accéder :
* Les projets Gscope
** [[UCSCGenomes]]
** [[ProGS]]
** [[RetChip]]
** [[RetGene]]
**
* Les bases de données SQL
** [[Genoret Database]]
** [[Retinobase]]
64e72a5b36739809621b45b858fe8a8994ffbbfe
1378
1368
2006-05-16T06:57:17Z
130.79.78.212
0
wikitext
text/x-wiki
Où sont stockées nos données, et comment y accéder :
* Les projets Gscope
** [[UCSCGenomes]]
** [[ProGS]]
** [[RetChip]]
** [[RetGene]]
**
* Les bases de données SQL
** [[Genoret Database]]
** [[Retinobase]]
* Les moyens d'accès
** Les procédures Tcl de Gscope
** Gscope en ligne de commande
** Gscope en café des sciences
** Gscope en serveur web
** Les bases SQL
1493cc05565b0f81a0d310be1d5262cda8638691
ProGS
0
1298
1369
2006-05-15T13:33:16Z
130.79.78.212
0
wikitext
text/x-wiki
ProGS est la base de données Gscope Clonage
Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule !
En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une ètude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales.
ProGS est accessible par web à [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS]
49dc42d12152b464f34d3d2982d0cc9882c65606
1370
1369
2006-05-15T13:36:31Z
130.79.78.212
0
wikitext
text/x-wiki
ProGS est la base de données Gscope Clonage
Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule !
En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une ètude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales.
ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS]
27d8fa7a5b88f3a79d8ffb1444981842c7aa8e31
1384
1370
2006-05-24T15:53:52Z
130.79.78.212
0
wikitext
text/x-wiki
ProGS est la base de données Gscope Clonage
Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule !
En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au Macsim de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales.
ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS]
Il faudrait développer Gscope Clonage en base de données SQL ...
6c63d544b840d1c655bff1cba843e86c18e0d593
RetChip
0
1299
1371
2006-05-16T06:29:12Z
130.79.78.212
0
wikitext
text/x-wiki
RetChip est un projet Gscope qui recense les gènes de la rétine.
Développé par Laëtitia Poidevin
2fab22b9120d96c2c4427854d04994ee5b6ce87a
RetGene
0
1300
1372
2006-05-16T06:42:53Z
130.79.78.212
0
wikitext
text/x-wiki
RetGene est un projet Gscope qui concerne les séquences des gène de la rétine dont la mutation provoque des maladies.
f7ca2f1b106659639352c84dfc6160db384a0ae6
Retinobase
0
1301
1373
2006-05-16T06:45:10Z
130.79.78.212
0
wikitext
text/x-wiki
RetinaBase is a SQL database concerning the transcriptomics data for the retina.
d4857821965d0968800c6753d40e1dc1adea88a6
1374
1373
2006-05-16T06:45:56Z
130.79.78.212
0
wikitext
text/x-wiki
RetinoBase is a SQL database concerning the transcriptomics data for the retina.
3705f20e625a1a579efc63d59ab68850b851b19a
Genoret Database
0
1302
1375
2006-05-16T06:50:33Z
130.79.78.212
0
wikitext
text/x-wiki
The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project.
See [http://www-genoret.u-strasbg.fr/wikigenoret WikiGenoret]
6e4088030c2682d7a2f54b8233da81b109693003
1376
1375
2006-05-16T06:50:55Z
130.79.78.212
0
wikitext
text/x-wiki
The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project.
See [http://www-genoret.u-strasbg.fr/genoret/wikigenoret WikiGenoret]
b61c32da90bbebc4723ac31394f869d40a9aab6f
1377
1376
2006-05-16T06:51:39Z
130.79.78.212
0
wikitext
text/x-wiki
The Genoret Database is a SQL database and a PHP website centrelazing the information for the EVI-Genoret Integrated Project.
See [http://www-genoret.u-strasbg.fr/genoret/wiki WikiGenoret]
0994f04915b465507fb1e66303b68dee4dd3ff9c
Java
0
1293
1385
1355
2006-06-01T07:33:20Z
130.79.77.179
0
/* sources internes */
wikitext
text/x-wiki
langage de programmation orienté objet.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
2af4e2d6a4add3849b296f8d3a48c20ffcdd019f
1387
1385
2006-06-01T07:52:52Z
130.79.77.179
0
wikitext
text/x-wiki
langage de programmation orienté objet.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
88e34216aa699cac22de97cf0dfbc7c3ebfb0d40
1392
1387
2006-06-16T12:56:33Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
affe36ae49a891aa66c530f8bdeb0a5cf8454813
1395
1392
2006-06-16T14:05:37Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort.
Bientôt installé sur star6.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
5e4809724809403988cede37e3a9ad15064cd766
1396
1395
2006-06-16T14:06:09Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort.
Bientôt installé sur star6 en version 1.5.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
0b8a7a7f3d150d05c59de297d80462ef9448f0c3
1397
1396
2006-06-16T16:07:15Z
Dkieffer
2
/* Librairies internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort.
Bientôt installé sur star6 en version 1.5.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
3aad2ff290ac7fa0c6b1eb16510cb25ba395282a
1399
1397
2006-06-19T08:23:00Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur alnitak et dans "/usr/opt/java141/bin" sur beaufort.
Installé sur star6 en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
012d0351444dff3b13a3bf8919b7c132798fe443
1400
1399
2006-06-19T08:23:44Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsFile.zip ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/Jama1.4.zip Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
9f50a261a9bd8c31da02b9a80302dfde794ce793
1401
1400
2006-06-19T09:36:34Z
Dkieffer
2
/* Librairies internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
7962d6afd695030d82e915ab520ccbd785f0e916
1403
1401
2006-06-19T09:50:40Z
Dkieffer
2
/* sources internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw sur alnitak]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
f54c6d8c67c0998a08fab3d10eaa32fd77eb87be
1404
1403
2006-06-19T15:49:03Z
Dkieffer
2
/* sources internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
70b6543f19ba7a9c3163f7531742749a4b79d418
1405
1404
2006-06-20T16:33:15Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonction BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
f53c4c1a4e56457495fd1110140176d8725f1639
1406
1405
2006-06-20T16:37:21Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies internes==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
1856fcefb3abbfc9f56dc953782dd5c2e17a8c60
1410
1406
2006-06-28T15:39:57Z
Dkieffer
2
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies internes==
Pour des raisons de compatibilité ces librairie sont en 1.4.
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www3.sympatico.ca/foisys/bj_in_anger/ tutorial rapide en français du bioJava]
ef0333631f37699d84ce772fc96fbd8db0916512
1411
1410
2006-06-28T15:40:14Z
Dkieffer
2
/* liens */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies internes==
Pour des raisons de compatibilité ces librairie sont en 1.4.
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
8dd6013893c19708483856319848a3752508ca89
1412
1411
2006-06-29T08:51:21Z
Dkieffer
2
/* Librairies internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
0a86787f42f2dee9850d03623544dba4cc46b340
1414
1412
2006-07-10T10:04:12Z
Dkieffer
2
/* sources internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
***Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du featuire
eu feature</feature>
<sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequences</comments>
<sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence>
</rich_sequence>
</rsf>
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
538ae757c9fef8c250cbbe8baf3db6348d998347
1415
1414
2006-07-10T12:03:15Z
Dkieffer
2
/* sources internes */
wikitext
text/x-wiki
langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
*Lancement et synchronisation de programmes externes à partir de java:
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*Fonctions BioJava utiles
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
***[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
***Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence>
</rich_sequence>
</rsf>
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
e9ed3c0dfb02fe7791895448afc92405dea0f8b2
1416
1415
2006-07-17T09:39:22Z
Dkieffer
2
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>.AAAALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIWM</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>AALLLVVVVVVVVVVVVVVVVAAAAAAAAAAAAAAAAAAAAAAAAALLLLLLLLLLLLIIIIIIIIIIIIIIIIW</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
74eb5bf2a200a5fd80c169e078968ec1402fc8dc
1417
1416
2006-07-17T13:28:45Z
Dkieffer
2
/* Fonctions BioJava utiles */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYPIEHGIITNWDDMEKIWHHTFYNELRVAP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
36df7d965d179b2f159f34a7386489c521f9cbfc
1418
1417
2006-07-17T13:29:26Z
Dkieffer
2
/* Fonctions BioJava utiles */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://biojava.org/wiki/Main_Page Biojava]
631013de48ce0f187bb58495cee5388b9ab0918a
1419
1418
2006-07-19T08:34:39Z
Dkieffer
2
/* liens */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://biojava.org/wiki/Main_Page Biojava]
f69af57c644dfb479a83443a192a12d0673f20f2
1420
1419
2006-07-19T08:53:07Z
Dkieffer
2
/* liens */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[alnitak]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
416d1d09f5c8e1e1b63e5a59f6c8ea0db6367909
1423
1420
2006-09-25T11:07:45Z
130.79.77.179
0
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
a8c1acd1fe3a6f127fcd4a69f1aa7b0661d58241
1426
1423
2006-11-20T11:00:21Z
130.79.77.179
0
/* liens */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==liens==
[http://java.sun.com/ site officiel de sun]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
912f03ac15e0e84372164536f097efc7471b756c
1427
1426
2006-11-21T08:24:02Z
Gagniere
3
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 pour l'instant sur [[kilida]] et dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
5f0f2203ccf412c3dd6d591f72c7fe126de42774
1428
1427
2006-11-21T08:25:34Z
Gagniere
3
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
811436f05b3c4982b616c6282551f84865fbcd34
1429
1428
2006-11-22T08:20:50Z
130.79.77.179
0
/* Librairies internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
ee3d1fb6f2b899cddd9a665a313c0611b453e15d
File:2cvPortieres.JPG
6
1303
1386
2006-06-01T07:34:25Z
Ripp
1
belles portes
wikitext
text/x-wiki
belles portes
247ad11971b8d366476020bbecd7fe01c8224ccd
File:DSCN1323avecZ.JPG
6
1304
1388
2006-06-01T07:55:10Z
Ripp
1
avec commentaires
wikitext
text/x-wiki
avec commentaires
aa11936eae4f2243ab9d9fc3587fb46f29c83933
Kilida
0
1283
1389
1357
2006-06-07T14:25:15Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Wikili est le wiki de Kilida
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on a fait l'upgrade en FC5
* [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]]
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
b11b5e761935b732ff3de97dd2046c472cd8d764
1390
1389
2006-06-07T14:27:16Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne sous Fedora 4'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* on a fait l'upgrade en FC5
* [[Installation de CAPweb]], [[Installation de R]], [[Installation de Tcl/Tk]]
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
69ded98fe8dfcfa793a79b7e68a8ce85b1acf9b5
1391
1390
2006-06-07T14:31:10Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
Upgrade en FC5
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
ac7c2c712be071a81d87d1fef13f43da9721c855
1398
1391
2006-06-19T08:05:43Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
'''Upgrade en FC5'''
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Raymond a copié toute l'arborescence de Genoret sur /[[homeKilida]] .
Attention il n'est évidemment pas à jour.
b91fec01aae0c9972e45b65069e66537eb8f6fa6
1402
1398
2006-06-19T09:47:22Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
'''Upgrade en FC5'''
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida.
Comment ?
* dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx
1b9f4dcf5b9a1d27e8e542115a1920c468a3ab5f
1407
1402
2006-06-28T10:31:42Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu'''
tout ce qui suit est à mettre à jour
'''Kilida est un PC AMD Opteron qui tournait sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
'''Upgrade en FC5'''
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida.
Comment ?
* dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx
dca21e3abf255ee7bc0ccc9aa94b9b565a56b0d1
1408
1407
2006-06-28T11:40:42Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu'''
voir [[Installation de Ubuntu]]
tout ce qui suit est à mettre à jour
'''Kilida est un PC AMD Opteron qui tournait sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
'''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
'''Upgrade en FC5'''
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida.
Comment ?
* dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx
d784c1ff6db2ab0f613f38797d8f6d7da105b0c3
1413
1408
2006-07-03T09:04:58Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret]
et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu'''
voir [[Installation de Ubuntu]]
tout ce qui suit est à mettre à jour
Obsolete :'''Kilida est un PC AMD Opteron qui tournait sous Fedora'''
Raymond a mis le système FC4 à partir du DVD fourni par Serge.
Au 22 mars 2006 rien de plus que le système n'a été installé
sauf /usr/local qui est partagé avec les autres LINUX <br/>
Tout est en commun avec les autres machines sauf /homeKilida (voir ce qu'il contient)
Il peut donc y avoir, des problèmes de superposition de packages entre la version propre à Kilida et /usr/local (à vérifier pour chaque bug)
Obsolete : '''Qu'y avait-il dans FC4 que nous utilisons pour le site ?'''
* /etc/httpd avec apache et php
* mysql
* postgresql
Obsolete : Mise à jour complete le 24/04/2006 par (CA PLANTE) puis ça marche !
* yum update (il tourne longtemps car 374 mises a jour et 20 nouveaux
* ... hélas il se plante en plein milieu ... et ne bouge plus.
* on reboot et là plus d'écran ... ABC nous change la carte graphique et ça repart ... (au début il y avait quand même de drôles de choses sur l'écran)
* on le met dans le bocal central
* yum update reprend bien ou il faut et se termine correctement !
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
'Obsolete : ''Upgrade en FC5'''
* en bootant sur le DVD FC5 on demande la misa à jour
* il y a toujours le problème avec la carte graphioque car des fois il ne redémarre pas
Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida.
Comment ?
* dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx
7456b03e57c68dbf24bf9da6c4eaf1ccc243a17e
User:Dkieffer
2
1305
1393
2006-06-16T13:52:38Z
Dkieffer
2
wikitext
text/x-wiki
Stagiaire 2006
2ae6134660b36ca02487fc5f6674ba16f32fa4be
User talk:Dkieffer
3
1306
1394
2006-06-16T13:54:15Z
Dkieffer
2
wikitext
text/x-wiki
j'aime le java.
d81f6945b872b0ad68b57546a95d35a913efb301
Installation de Ubuntu
0
1307
1409
2006-06-28T11:48:57Z
130.79.78.212
0
wikitext
text/x-wiki
Ubuntu est un Linux issu de Debian
On part du DVD fourni par Ubuntu
* On boote dessus ...
** Il demande quoi faire (on prend le 1er avec graphique)
** Il charge un Linux complet sans toucher aux disques
** Sur le bureau il y a une icone "Install"
** Il demande alors sur quel disque ... les partitions à faire etc.
** Tout est graphique et facile.
21ad83e8fb813ebaa3aca2c9ef8060913d9e525a
1424
1409
2006-11-17T08:08:24Z
130.79.78.212
0
wikitext
text/x-wiki
Ubuntu est un Linux issu de Debian
voir [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme/UbuntuInstallation.txt Installation Ubuntu] par Nicolas et Raymond
On part du DVD fourni par Ubuntu
* On boote dessus ...
** Il demande quoi faire (on prend le 1er avec graphique)
** Il charge un Linux complet sans toucher aux disques
** Sur le bureau il y a une icone "Install"
** Il demande alors sur quel disque ... les partitions à faire etc.
** Tout est graphique et facile.
bdf3def2bc1a8a625054d8413979f256f69de79b
Source de données
0
1297
1421
1378
2006-09-04T13:22:27Z
130.79.78.212
0
wikitext
text/x-wiki
Où sont stockées nos données, et comment y accéder :
* Les projets Gscope
** [[UCSCGenomes]]
** [[ProGS]]
** [[RetChip]]
** [[RetGene]]
**
* Les bases de données SQL
** [[Genoret Database]]
** [[Retinobase]]
** [[GenoretGenes]]
* Les moyens d'accès
** Les procédures Tcl de Gscope
** Gscope en ligne de commande
** Gscope en café des sciences
** Gscope en serveur web
** Les bases SQL
08295db7429541369b85501e61cbfda6f2a576f4
GenoretGenes
0
1308
1422
2006-09-04T13:27:47Z
130.79.78.212
0
wikitext
text/x-wiki
GenoretGenes est la base de données construite sur le projet [[Gscope]] EVImm
Il centralise les informations concernant les gènes de la rétine.
Cette base est maintenue par [[Laëtitia Poidevin]]
voir aussi le site WikiGenoret de [http://www-genoret.u-strasbg.fr/Wikigenoret/GenoretGenes GenoretGenes]
et le site web [http://www-bio3d-igbmc.u-strasbg.fr/GenoretGenes GenoretGenes]
41b4998bf59ec7953473c004fb8090c45081de7b
UCSCGenomes
0
1284
1432
1312
2006-11-28T13:03:40Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips ou bigZips200405 etc.
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
fd5fb6117146ceaa6a035e286798a1ac78fc4e57
1433
1432
2006-11-28T14:03:11Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
1badf10f001514d32d2d21ecb8624f3b35500725
Main Page
0
1279
1434
1366
2006-11-28T22:33:41Z
Shagman
4
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
c916137f2648191e3fd0d2138fabd9d8aee4a13f
Alvinella
0
1311
1438
2006-12-03T21:52:05Z
64.27.20.205
0
wikitext
text/x-wiki
48053369391600495951863
0f3f160b4f70405929a4418daf50d0225db1fc2f
1442
1438
2006-12-13T19:33:58Z
148.233.159.57
0
wikitext
text/x-wiki
48053369391600495951863
<br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u>
2681cf4f236955f404fb1f50db9bd04d9f407206
1445
1442
2006-12-14T16:29:35Z
80.227.0.153
0
wikitext
text/x-wiki
48053369391600495951863
<br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u>
<br><br><u style="display:none;">[http://phenotropil.romandie.com/ Buy Generic Levitra]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20 mg]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20mg]</u>
c6fb1fc33d87700ec0ac86f1954c810600f0f7db
Java
0
1293
1446
1429
2006-12-19T09:55:38Z
130.79.77.179
0
/* sources internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
7041da99fc86067664add01aa5329355a9e986dc
1447
1446
2006-12-19T10:00:04Z
130.79.77.179
0
/* sources internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
4c0d6c7c687f826141d0ed1a2303b0b2aaaf18b9
1448
1447
2006-12-19T10:00:47Z
130.79.77.179
0
/* sources internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
18e97f53f1b53ed1cad0bf7c6676fbb710a4c24a
1459
1448
2006-12-20T13:32:48Z
130.79.77.179
0
/* Librairies */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
a1f7d338728cc9b24a3ecc07d2021c5b7b74709a
Main Page
0
1279
1449
1434
2006-12-19T10:10:15Z
130.79.77.179
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
0470dc3b9d76a4f5a8d6efaa6047bb308a71da27
1458
1449
2006-12-20T09:46:44Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Café des sciences]] sur Ouragan ou autre ...
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
3b27f86491b321f480adb6326b4c6eea44ca30dd
1464
1458
2006-12-21T16:52:15Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Bird]] ... Hoan est disponible !
* [[Café des sciences]] sur Ouragan ou autre ...
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
0aa36e162dcb47a66441ac8c762fd3e7c7281f04
1485
1464
2007-01-19T09:34:12Z
Dkieffer
2
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Bird]] ... Hoan est disponible !
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
02ecdb1d3eb4b141094891ef3cf76c1cabe945ee
1491
1485
2007-01-23T15:03:21Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
8453487421ff71c383e62599004d38698e1a0ee2
1498
1491
2007-02-01T08:19:48Z
Dkieffer
2
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix]]
* [[logiciels]] disponibles sur les serveurs.
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
c68a3a1cd138c25cc412677bf5ba2e5462dd5a76
1500
1498
2007-02-01T08:32:29Z
Dkieffer
2
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
* [[Macsims]]
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[Java]]
* [[Unix| aide Unix]]
* [[logiciels]] disponibles sur les serveurs.
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
6974bed0fb02e6d7e837684ad5bdd63291d4b263
Unix
0
1312
1450
2006-12-19T10:28:42Z
Dkieffer
2
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandex Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|}
fee2e8886ae425cc69a833bed1584f867be84f3e
1451
1450
2006-12-19T12:29:01Z
Dkieffer
2
/* Manipulation des fichiers et des répertoires */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandex Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|
|
|}
44f57aff1e4102f32f5256d7ed7c81a22c16db71
1452
1451
2006-12-19T12:40:33Z
Dkieffer
2
/* Manipulation des fichiers et des répertoires */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandex Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
e07d1012e615c05de54fe6a0010105969706e00c
1460
1452
2006-12-21T09:20:38Z
130.79.77.179
0
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commande Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
0e5dc628937bbc34570eb39f56f7ead579996e8f
1461
1460
2006-12-21T10:54:59Z
Dkieffer
2
/* Commande Unix */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commande Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
4056da08c64aac99014eb759baa1d5c54472431f
1462
1461
2006-12-21T13:00:59Z
Dkieffer
2
/* Commande Unix */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
5e0575fcea02816aff0985d5b83a861ce1fd1282
1463
1462
2006-12-21T13:38:11Z
Dkieffer
2
/* Commandes Unix */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|}
=sources=
Initiation à la bioinformatique O'Reilly
aefd5d0b5005051022235ade883abd4e29ffe7c0
1474
1463
2007-01-02T16:35:20Z
130.79.77.179
0
/* Visualisation et traitement de fichiers */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|}
=sources=
Initiation à la bioinformatique O'Reilly
efa9a46a29f18008a0ee11b5c2507c3ca7c1c34b
1475
1474
2007-01-02T16:40:56Z
Dkieffer
2
/* Visualisation et traitement de fichiers */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|}
=sources=
Initiation à la bioinformatique O'Reilly
5783e0cf15e175e51b2375c0638e39e16e5c66d5
1476
1475
2007-01-02T16:50:04Z
Dkieffer
2
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
7d935213bff80d2e84dfd530e52347b8cc6062e4
1477
1476
2007-01-02T16:54:03Z
Dkieffer
2
/* commandes relatifs à l'environnement multi-utilisateurs */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
3d8d1f4ec436c7c2228a93b2566692fdac349bc5
1478
1477
2007-01-02T16:54:43Z
Dkieffer
2
/* commandes relatifs à l'environnement multi-utilisateurs */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
a11e00fedbf634f5b989181a218d63b0631e32a3
UCSCGenomes
0
1284
1453
1433
2006-12-19T15:43:20Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
Y a du neuf ! Y a du neuf !
Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)
On y a accès par
* En mode console
** setbird
** bird_explorer_ucsc query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par gscope (la suite est à confirmer par oue)
** Bird Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie)
** NPduNM NM rend le NP
** GenesFromZone Debut Fin Orga Chr Strand FromWhere
** LocIn Position Orga Chro Strand
** LocAfter Position Orga Chro Strand
** LocBefore Posotion Orga Chro Strand
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
09f19ec64d171ccc546d68e1e95b4d3724c5b339
1454
1453
2006-12-19T15:46:22Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
Y a du neuf ! Y a du neuf !
Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)
On y a accès par
* En mode console
** setbird
** bird_explorer_ucsc query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par gscope (la suite est à confirmer par oue)
** Bird Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** NPduNM NM (rend le NP)
** GenesFromZone Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** LocIn Position Orga Chro Strand
** LocAfter Position Orga Chro Strand
** LocBefore Position Orga Chro Strand
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
4cd35e7aa7b7694eb8ded4861dffc71673195ca5
1455
1454
2006-12-19T15:47:16Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
Y a du neuf ! Y a du neuf !
Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par gscope (la suite est à confirmer par oue)
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
51e558db1033f5321d7482fca8be19318fdae043
1456
1455
2006-12-19T15:48:02Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beuacoup de choses :
Y a du neuf ! Y a du neuf !
Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
fca596d813f6ff7b078b71b3e72fdf5d71702048
1481
1456
2007-01-10T13:23:33Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beaucoup de choses :
Attention: les positions des nucléotides dans UCSC sont compées à partir de 0
Il y a donc un décalage de 1.
Y a du neuf ! Y a du neuf !
Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
72428d9c727f03bd289210695cad2bda70239a39
1482
1481
2007-01-10T13:37:56Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beaucoup de choses :
Attention: les positions des nucléotides dans UCSC sont compées à partir de 0
Il y a donc un décalage de 1.
Y a du neuf ! Y a du neuf !
==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)==
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''BirdGetFields''' NM f1,f2,f3
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
==Les séquences==
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
==Les banques BLAT==
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
==LocUcsc==
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
59a7bf4ff81d484af61c8ca6ba27fb2aaa639ec7
1483
1482
2007-01-10T13:40:10Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beaucoup de choses:
Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0
Il y a donc un décalage de 1.
==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[BIRD]] (sous DB2)==
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''BirdGetFields''' NM f1,f2,f3
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
==Les séquences==
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
==Les banques BLAT==
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
==LocUcsc==
LocUcsc sera réécrit bientôt pour utiliser les données DB2 de Bird
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
b75e39d893c8acf2bb6a270a69b38fe932061cb0
1484
1483
2007-01-10T13:41:35Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beaucoup de choses:
Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0
Il y a donc un décalage de 1.
==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[Bird]] (sous DB2)==
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''BirdGetFields''' NM f1,f2,f3
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
==Les séquences==
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
==Les banques BLAT==
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
==LocUcsc==
LocUcsc sera réécrit bientôt pour utiliser les données DB2 de Bird
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
a4add57e0eebb78e34dd73881e6d2557bcab8352
BIRD
0
1313
1457
2006-12-19T15:50:30Z
130.79.78.212
0
wikitext
text/x-wiki
Le site web de [http://star4:8080/mybiodb BIRD]
e91b75c8288d07f97f87fb00f77870b00f3dbbf9
Oue
0
1315
1468
2006-12-21T17:12:01Z
130.79.78.212
0
wikitext
text/x-wiki
oue la commande magique sous Unix qui dit '''où e'''st dans gscope les mots qui suivent.
* oue blastppourtous
* oue latotale
* oue dom parse
* oue proc machin
en fait les mots qui suivent oue sont concaténés avec un blanc entre.
* oue blast | gr proc récupère toutes les proc commençant par blast
d8201e6ea62dd745ed493898cd9ba372cc7a65de
1469
1468
2006-12-21T17:13:01Z
130.79.78.212
0
wikitext
text/x-wiki
'''oue''' la commande magique sous Unix qui dit '''où e'''st dans gscope les mots qui suivent.
* '''oue''' blastppourtous
* '''oue''' latotale
* '''oue''' dom parse
* '''oue''' proc machin
en fait les mots qui suivent '''oue''' sont concaténés avec un blanc entre.
* '''oue blast | gr proc''' récupère toutes les proc commençant par blast
7adb54e884e6827cce801dd8ff3ce0ff1d5b9663
CVS
0
1317
1486
2007-01-19T09:41:21Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
21288faee2529adb0ebb6efde514d90bdfbda5fa
1487
1486
2007-01-19T09:56:37Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur Kilida
Pour pouvoir l'utiliser, contacter Nicolas Gagnière (gagniere@igbmc.u-strasbg.fr).
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
5bdae528c4aad25ef1d0bb23c287557ca42bd5fd
1488
1487
2007-01-19T10:06:32Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt, et qui permet aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur Kilida
Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr Nicolas Gagnière].
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
158006d2727414036a32d0c64b16e6f5a4820a0c
1489
1488
2007-01-19T10:08:56Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur Kilida
Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr Nicolas Gagnière].
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
7137ea3cfd3ed820c672348cc471839d3405276d
1490
1489
2007-01-19T10:21:46Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur Kilida
Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière].
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
90938f91196d8d35e9b73574d428947a739925b7
Gscope Clonage
0
1318
1492
2007-01-23T15:18:18Z
130.79.78.212
0
wikitext
text/x-wiki
'''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, stocker et gérer toute les information sur la protéine dont vous rêvez de faire la structure tridimensionnelle.
'''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs de _ de + d'apostrophes etc.
** une définition du style "Homo sapiens Note DNA repair helicase RAD3 (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB et;)
ebb193426feb21af12bef271a664b5d72d52d704
1493
1492
2007-01-23T15:24:45Z
130.79.78.212
0
wikitext
text/x-wiki
'''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la protéine dont vous rêvez de faire la structure tridimensionnelle.
'''Gscope Clonage''' fait toutes les analyses possibles de votre séquences
'''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquecnce===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase RAD3 (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
===Commande d'oligos===
===Verification de séquence===
===Serait-ce un LIMS ?===
5fa7cbc389bef5554c898635da668653b5fbf200
1494
1493
2007-01-23T15:42:38Z
130.79.78.212
0
wikitext
text/x-wiki
'''Gscope Clonage''' et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
'''Gscope Clonage''' fait toutes les analyses possibles de vos séquences
'''Gscope Clonage''' dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquecnce===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
** Attention à écrire les signaux correctement, avec majuscule et miniscules
** Attention au _ et - : les _ séparent les signaux entre eux et avec la prot.
** Attention le - de hsDRH4-A fait parti du nom de gène, les autres séparent les bornes des domaines.
* gscope OligAuto fait tout le reste en automatique.
===Verification de séquence===
===Serait-ce un LIMS ?===
911f7bffb7db6c73dea20954d36c8255d17518c5
1495
1494
2007-01-23T15:47:15Z
130.79.78.212
0
wikitext
text/x-wiki
'''Gscope Clonage'''
* et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait parti du nom de gène, les autres séparent les bornes des domaines.
* gscope OligAuto fait tout le reste en automatique.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
fef5d0c5d2b53e73d929b0ae716c4774b74c8ced
1496
1495
2007-01-23T22:21:38Z
212.198.132.121
0
Gscope Clonage : etude séquence, design et commande d'oligos
wikitext
text/x-wiki
'''Gscope Clonage'''
* et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
* gscope OligAuto fait tout le reste en automatique.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
001dbf4d023823207d46b25cc3acff368ac20f62
1497
1496
2007-01-23T22:22:38Z
212.198.132.121
0
/* Commande d'oligos */
wikitext
text/x-wiki
'''Gscope Clonage'''
* et une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
9338c277cf008bd5bb0a094e83fe821d8af6f9bb
Logiciels
0
1319
1499
2007-02-01T08:28:51Z
Dkieffer
2
wikitext
text/x-wiki
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[Macsim|MACSIM]]
*[[Bird]]
=Autres Logiciels=
*[[R]]
d67e1cfb1893609d2c8a8e2ab1126d3e11ed0841
R
0
1320
1501
2007-02-01T08:47:36Z
Dkieffer
2
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
d6135bd0e92e0a6fd70c2633df4e5f3aa52c8da5
1502
1501
2007-02-01T09:34:43Z
Wraff
5
/* Comment le lancer? */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trove le version la plus recente sur [http://www.r-project.org/] <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
5148f8ec843eacd2de0337326b52c4562196bf5b
1503
1502
2007-02-01T09:35:34Z
Wraff
5
/* R pour Windows */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trove le version la plus recente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
abf1add1bd1544ffa9c27e082f24cc144b9fd281
1504
1503
2007-02-01T09:39:48Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trove le version la plus recente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf R pour les débutants] d'Emmanuel Paradis
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
00e8cdd73b5cf7dfec1dc55bc32f55f4a71f6bf7
R
0
1320
1505
1504
2007-02-01T09:43:51Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trove le version la plus recente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
b8a3326d289879648f53d86064646b5db068fbed
1506
1505
2007-02-01T09:58:41Z
Dkieffer
2
/* R pour Windows */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve le version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card from Tom Short on www.Rpad.org http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
f607fadbf60e8802a2e39a7295830d48450c37d3
1507
1506
2007-02-01T09:58:47Z
Wraff
5
/* Documentation et Tutorials */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve le version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
905004fc00e7b7679c94ae42097b6c6e610bcbf8
1508
1507
2007-02-01T10:00:14Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve le version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
d22cc6f979210ee3f04253ead357e5b9b822fc08
1509
1508
2007-02-02T13:09:34Z
Dkieffer
2
/* R pour Windows */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version Version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
5010ec47ad93ce05a83e2ae278f9e16c65b71724
1541
1509
2007-02-28T13:44:45Z
Dkieffer
2
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
Janvier 2007: La dernière version du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
C’est la version 2.4.1. L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
9a6d9992e2a15854ea4fe8f90c71fa0b76883601
Main Page
0
1279
1511
1500
2007-02-13T09:16:32Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
==Outils Unix==
* [[Java]]
* [[Unix| aide Unix]]
* [[logiciels]] disponibles sur les serveurs.
<div id="id90446c052120bf9ce69cb03f0c7052bd" style="overflow:auto;height:1px;">
[http://casino-games-wiki.com/index.php/casino_games casino games]
[http://casino-games-wiki.com/index.php/online_casino_games online casino games]
[http://casino-games-wiki.com/index.php/casino_games_online casino games online]
[http://adipex-wiki.com/index.php/adipex adipex]
[http://adipex-wiki.com/index.php/buy_adipex buy adipex]
[http://adipex-wiki.com/index.php/adipex_online adipex online]
[http://tramadol-wiki.com/index.php/tramadol tramadol]
[http://tramadol-wiki.com/index.php/cheap_tramadol cheap tramadol]</div>
3b7c40217f4955918659264470360aa0b1c42edb
1512
1511
2007-02-13T09:22:28Z
130.79.79.89
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
==Outils Unix==
* [[Java]]
* [[Unix| aide Unix]]
* [[logiciels]] disponibles sur les serveurs.
a33da91d9314006d593188c857e84c7abd89f3d3
1514
1512
2007-02-13T09:29:24Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[logiciels]] disponibles sur les serveurs.
e9ac72a342964a303ddf876aaa6d034ac3c48e0d
1538
1514
2007-02-26T08:28:52Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en est le serveur [[Kilida]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
2634de94d6e9e790f03def864d438b2a957c3641
Café des sciences
0
1322
1513
2007-02-13T09:27:36Z
130.79.78.212
0
wikitext
text/x-wiki
Café des sciences
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
9ed24732ae47b4c048cd6cb43c05d4858fc8e2da
1519
1513
2007-02-13T13:59:29Z
Ripp
1
wikitext
text/x-wiki
Café des sciences
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou clients) veulent poser des questions et entendre les réponses d’un ensemble de « savants » invités à débattre de ce qu’ils savent. Le client demande à l’animateur du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… l’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.
''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
f6f67e01d96718a208d07daa04132ed77a70cb3b
1520
1519
2007-02-13T13:59:56Z
Ripp
1
wikitext
text/x-wiki
Café des sciences
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou clients) veulent poser des questions et entendre les réponses d’un ensemble de « savants » invités à débattre de ce qu’ils savent. Le client demande à l’animateur du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose… l’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame. D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé). Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.
''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
0420bc20a471e705c59c3d288c099a117fa39668
1521
1520
2007-02-13T14:02:03Z
Ripp
1
wikitext
text/x-wiki
Café des sciences
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent.
Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…
L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.
D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).
Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
a642e17818f0ef0d8c6c53d00c891b4da43a02c1
1522
1521
2007-02-13T14:20:25Z
Ripp
1
wikitext
text/x-wiki
Café des sciences
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent.
Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…
L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.
D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).
Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
* en langage de commande
** question_de_science HOST:PORT:SCIENCE COMMANDE
** qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
* dans gscope
** QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
* par web
** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
9862b835523f9ac58547d22bce17110062dc3402
1523
1522
2007-02-13T14:21:42Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de « '''savants''' » invités à débattre de ce qu’ils savent.
Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…
L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.
D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).
Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
* en langage de commande
** question_de_science HOST:PORT:SCIENCE COMMANDE
** qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
* dans gscope
** QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
* par web
** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
c281a980b00790bf5befa5464c8fe63c758fa0eb
1524
1523
2007-02-13T14:23:02Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
* en langage de commande
** question_de_science HOST:PORT:SCIENCE COMMANDE
** qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
* dans gscope
** QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
* par web
** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
7775d1d133a972fa2ecdfb914456da618efa77be
1525
1524
2007-02-13T14:24:20Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
# en langage de commande
** question_de_science HOST:PORT:SCIENCE COMMANDE
** qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
# dans gscope
** QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
# par web
** http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
0b3ccc4029a0c2556feafd274cf3eafd351c951c
1526
1525
2007-02-13T14:25:18Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strsbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
69a9ec9096959a9f4a877f9c7cec58935c312e01
1527
1526
2007-02-13T14:26:30Z
Ripp
1
/* par web */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
on peut mettre, par exemple
qds SCIENCE ListeDesPABs > FichierResultat.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
011eada13829a899977757b80c9b2fe24c4cd2d1
1528
1527
2007-02-13T14:27:58Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
627b357d42725e1133db81b4157490b7e820b118
1529
1528
2007-02-13T14:29:07Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
3b2f42ca93eaad78268bd8624318386877899f93
1550
1529
2007-03-08T18:51:09Z
64.27.20.205
0
/* Principe */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
663359692105707909320860
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
2d90e6d593857a75ce29164a332b8f9c52d38807
1552
1550
2007-03-24T06:55:36Z
216.144.225.74
0
/* Principe */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
663359692105707909320860
<br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u>
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
e179f135c07cf67113bf5edb04f50cd6bbc1e62e
1553
1552
2007-03-24T08:10:57Z
201.28.123.98
0
/* Principe */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
663359692105707909320860
<br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u>
<br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Videos]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free porn sample movies]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Hardcore Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Free Porn Clips]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Teen Porn Videos]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Girls]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Porn]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Sexy Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Nude Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Naked Teens]<br></u>
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
a1daac17705845d72b5fd8d7369478ac690f5c27
Tcl/Tk
0
1323
1515
2007-02-13T09:31:37Z
Ripp
1
wikitext
text/x-wiki
Pour le package http il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl
0a716dc8d98990e5343e0b6d15e9c47512c4ad5f
1516
1515
2007-02-13T09:32:23Z
Ripp
1
wikitext
text/x-wiki
Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl
a5edd5f975e2c8bfff99873fbab1675723ac7745
1517
1516
2007-02-13T13:02:45Z
Ripp
1
wikitext
text/x-wiki
Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl
506020a6f10fe1fef67326e1e399d349c629a73d
1518
1517
2007-02-13T13:03:10Z
Ripp
1
wikitext
text/x-wiki
* Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl
0a312c093bfc68b994ae6a0809e75f3483dd5334
Unix
0
1312
1531
1478
2007-02-16T15:59:37Z
Dkieffer
2
/* commandes relatifs à l'environnement multi-utilisateurs */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 | commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
d6211364979daf5b9f825940968892f025145035
1532
1531
2007-02-19T10:40:46Z
130.79.77.179
0
/* Redirections et tube */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 (caractère pipe) commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
ae37f39dd1b634014822d64256f5859f41d2a110
1533
1532
2007-02-19T12:27:07Z
Dkieffer
2
/* Manipulation des fichiers et des répertoires */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 (caractère pipe) commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
972eabf3c909534df4f0d45ed962aa74438328b9
1534
1533
2007-02-19T12:37:34Z
Dkieffer
2
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 (caractère pipe) commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=sources=
Initiation à la bioinformatique O'Reilly
380ae939a97024111c4025f46bceb95a54794d31
1548
1534
2007-03-06T13:16:45Z
Dkieffer
2
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 (caractère pipe) commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
==Les variables==
*Pour assigner une variable simple:
ma_Variable="ceci est une variable"
*Pour assigner une variable d'environnement:
export ma_Variable_d_env="ceci est une variable"
*Pour acceder a une variable:
$ma_variable
exemple: echo $ma_variable
affiche: ceci est une variable
=sources=
Initiation à la bioinformatique O'Reilly
0286f3d903f55df150d56d21aa07094de9bc3d17
1549
1548
2007-03-06T13:26:20Z
Dkieffer
2
/* Script bash */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|commande_1 (caractère pipe) commande_2
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
acb706158df3ab90334ba6dd448699e53e335043
Logiciels
0
1319
1535
1499
2007-02-19T15:47:54Z
Dkieffer
2
/* Autres Logiciels */
wikitext
text/x-wiki
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[Macsim|MACSIM]]
*[[Bird]]
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
09431287359e12ed8c5070270ca26826f87df1aa
Graphviz
0
1325
1536
2007-02-19T16:06:36Z
Dkieffer
2
wikitext
text/x-wiki
Logiciel de visualisation de graph au format dot.
installé sur [[kilida]] et [[alnitak]]
=le format dot=
c'est un fichier texte ayant cette structure:
graph GraphName {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -- "dix" [color=purple];
"un" -- "dix";
"zero" -- "vingt";
"deux" -- "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
Et pour un graphe orienté
digraph G {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -> "dix" [color=purple];
"un" -> "dix";
"zero" -> "vingt";
"deux" -> "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
=les commandes=
Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) :
cmd [ flags ] [ input files ]
Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot :
dot -Tjpg -omonImage.jpg monGraphe.dot
57b06118da709acec917c244c218714a68ef28b1
1537
1536
2007-02-19T16:08:07Z
Dkieffer
2
wikitext
text/x-wiki
Logiciel de visualisation de graph au format dot.
installé sur [[kilida]] et [[alnitak]]
=le format dot=
c'est un fichier texte ayant cette structure:
graph GraphName {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -- "dix" [color=purple];
"un" -- "dix";
"zero" -- "vingt";
"deux" -- "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
Et pour un graphe orienté
digraph G {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -> "dix" [color=purple];
"un" -> "dix";
"zero" -> "vingt";
"deux" -> "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
=les commandes=
Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) :
cmd [ flags ] [ input files ]
Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot :
dot -Tjpg -omonImage.jpg monGraphe.dot
=Voir aussi=
[[Logiciels]]
ac30572ce00a048fdd0e45ecd44daf683ec69f27
1540
1537
2007-02-28T13:44:08Z
Dkieffer
2
/* les commandes */
wikitext
text/x-wiki
Logiciel de visualisation de graph au format dot.
installé sur [[kilida]] et [[alnitak]]
=le format dot=
c'est un fichier texte ayant cette structure:
graph GraphName {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -- "dix" [color=purple];
"un" -- "dix";
"zero" -- "vingt";
"deux" -- "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
Et pour un graphe orienté
digraph G {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -> "dix" [color=purple];
"un" -> "dix";
"zero" -> "vingt";
"deux" -> "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
=les commandes=
Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) :
cmd [ flags ] [ input files ]
Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot :
dot -Tjpg -omonImage.jpg monGraphe.dot
taper " man dot " pour plus d'information.
=Voir aussi=
[[Logiciels]]
79167269bd3fd71153c0ff3baf3f9b85a93bbff5
1547
1540
2007-03-05T08:31:06Z
Dkieffer
2
wikitext
text/x-wiki
Logiciel de visualisation de graphe au format dot.
installé sur [[kilida]] et [[alnitak]]
=le format dot=
c'est un fichier texte ayant cette structure:
graph GraphName {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -- "dix" [color=purple];
"un" -- "dix";
"zero" -- "vingt";
"deux" -- "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
Et pour un graphe orienté
digraph G {
bgcolor=azure;
node [shape=box, color=lightblue2, style=filled];
edge [arrowsize=2, color=gold];
"zero" -> "dix" [color=purple];
"un" -> "dix";
"zero" -> "vingt";
"deux" -> "vingt";
"zero" [shape=circle, color=thistle1, fontcolor=purple];
}
=les commandes=
Syntaxe (où cmd correspond à l'un des générateurs : dot, neato, twopi) :
cmd [ flags ] [ input files ]
Exemple produisant une image JPEG monImage.jpg à partir du fichier d'entrée monGraphe.dot :
dot -Tjpg -omonImage.jpg monGraphe.dot
taper " man dot " pour plus d'information.
=Voir aussi=
[[Logiciels]]
ae3634504c501c462f30e7d548fb9db581713201
Html et Javascript
0
1326
1539
2007-02-26T08:30:56Z
130.79.78.212
0
wikitext
text/x-wiki
Quelques outils pour Html et Javascript
* includeFile
<pre>
function includeFile (fileName) {
if (document.getElementsByTagName) {
Script = document.createElement("script");
Script.type = "text/javascript";
Script.src = fileName;
var Body = document.getElementsByTagName("body");
if (Body) {
Body[0].appendChild(Script);
}
}
}
function includeAllJavascriptToolsFromRr () {
includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/prototype.js") ;
includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/JavascriptToolsFromRr.js") ;
includeFile("http://www-bio3d-igbmc.u-strasbg.fr/~ripp/jstools/Decoration.js") ;
}
</pre>
cbdbfe78eb5d472580f7d16cebdbae1b70fef73f
LBGI
0
1280
1542
1289
2007-02-28T13:51:47Z
Dkieffer
2
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et toute la [http://alnitak.u-strasbg.fr/lbgi tribu]
Le Wiki de [[Laëtitia]].
La page wiki de [[User:Dkieffer | David Kieffer]]
657cde943f13b2aa09a7216236b7d5497de78b60
User:Dkieffer
2
1305
1543
1393
2007-02-28T13:55:21Z
Dkieffer
2
wikitext
text/x-wiki
=Mon parcours au LBGI=
Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker.
Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker.
5c0a14814c251396ca9d962128d8384e62792e12
Alvinella
0
1311
1546
1445
2007-03-02T00:56:09Z
61.95.148.3
0
wikitext
text/x-wiki
48053369391600495951863
<br><br><u style="display:none;">[http://blogs.ebay.com/predyava Buy Generic Cialis]<br>[http://blogs.ebay.com/predyava Buy Cialis 20 mg]<br>[http://blogs.ebay.com/predyava Cheap Generic Cialis 20mg]<br>[http://blogs.ebay.com/predyava Buy Cheap Cialis]<br>[http://blogs.ebay.com/predyava Buy Generic Cialis 20 mg]</u>
<br><br><u style="display:none;">[http://phenotropil.romandie.com/ Buy Generic Levitra]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20 mg]<br>[http://phenotropil.romandie.com/ Buy Levitra Online]<br>[http://phenotropil.romandie.com/ Buy Generic Levitra 20mg]</u>
<br><br><u style="display:none;">[http://jira.opensymphony.com/secure/attachment/12901/creampie.html Anal Creampie] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Surprise] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Galleries] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Creampie Pussies] [http://jira.opensymphony.com/secure/attachment/12901/creampie.html Teen Creampie]
[http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Drunk Sex Orgy] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Party Hardcore] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html College Wild Parties] [http://jira.opensymphony.com/secure/attachment/12902/drunksexorgy.html Drunk Party]
[http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Gay cowboys] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Huge gay cock] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Big gay dick] [http://jira.opensymphony.com/secure/attachment/12903/gaycowboys.html Black gay dick]
[http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Black Seducer] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Boys Collection] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Boys Wedding] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Black Machines] [http://jira.opensymphony.com/secure/attachment/12904/gaylessons.html Gay Lessons]
[http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Porn] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Lessons] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html World Mature] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Mature Debutants] [http://jira.opensymphony.com/secure/attachment/12905/matureporn.html Banged Moms]
[http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale sex] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale galleries] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale movies] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Black shemales] [http://jira.opensymphony.com/secure/attachment/12906/shemaleporn.html Shemale porn]
[http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Sex] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleep Assault] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Bitch] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Sleeping Bitches] [http://jira.opensymphony.com/secure/attachment/12907/sleepingsex.html Night Invasion]
[http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking tease] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Black stockings] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking mania] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Silk stockings] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Stocking sex] [http://jira.opensymphony.com/secure/attachment/12908/stockings.html Nylon stockings]</u>
fbcf04510627ed08756e2d23573ac8261983bd10
Gscope
0
1287
1554
1320
2007-03-24T12:26:37Z
212.198.132.121
0
wikitext
text/x-wiki
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
5b083af33663f47eb3772eac1a152458102e794a
1556
1554
2007-03-24T12:30:27Z
212.198.132.121
0
wikitext
text/x-wiki
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
Gscope has some specific applications
* [[Gscope Clonage]] to design, order and manage oligos for Structural Genomics
3f53a6f434125e706c79eb084025d6724e49c4fc
1557
1556
2007-03-24T12:30:40Z
212.198.132.121
0
wikitext
text/x-wiki
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
Gscope has some specific applications
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]]
7f1995a1a57cfe0c9e099052628eb4d1f2193080
1558
1557
2007-03-24T12:33:47Z
212.198.132.121
0
wikitext
text/x-wiki
==What is Gscope ?==
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]]
==How it works==
* Main [[Architecture of Gscope]]
9863c84a7f597efe4ca7c90a65659f376acd1ac3
1559
1558
2007-03-24T12:34:55Z
212.198.132.121
0
wikitext
text/x-wiki
==What is Gscope ?==
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
5c15a92b8efc5a5642ff7e14e326b76310edf1ee
Gscope Clonage
0
1318
1555
1497
2007-03-24T12:27:04Z
212.198.132.121
0
wikitext
text/x-wiki
'''Gscope Clonage'''
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
fcad2073d606d7455dc0edf3fcc3322caf43d2c1
Architecture of Gscope
0
1328
1560
2007-03-24T13:46:15Z
212.198.132.121
0
wikitext
text/x-wiki
The Architecture of Gscope is not ... perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
3fe89d6263e3381283bbe1f11283df0a32c1d111
Café des sciences
0
1322
1561
1553
2007-04-13T00:01:09Z
195.175.37.6
0
/* Principe */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
663359692105707909320860
<br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Women]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=261 Mature Porn]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Moms]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Lesbians]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=262 Mature Ladies]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=263 Gay Fuck]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Teen Webcam]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=264 Webcam Chat]<br></u>
<br><br><u style="display:none;">[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=265 Free Porn Videos]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free Porn Movies]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=266 Free porn sample movies]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Hardcore Porn]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Free Porn Clips]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=267 Teen Porn Videos]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Girls]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Sex]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=268 Teen Porn]<br>
[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Sexy Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Nude Teens]<br>[http://sulu.informatics.indiana.edu/6S/forum/viewthread.php?action=attachment&tid=77&pid=269 Naked Teens]<br></u>
<br><br><u style="display:none;">[http://blog.carthage.edu/buyviagra/buyviagra.php Buy Viagra] [http://blog.carthage.edu/phentermine/phentermine.php Buy Phentermine] [http://blog.carthage.edu/buycialis/buycialis.php Buy Cialis] [http://blog.carthage.edu/buylevitra/buylevitra.php Buy Levitra]</u>
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
90cdffca837a73be01ae83c2d4eb963a75b9b749
Java
0
1293
1564
1459
2007-04-16T17:17:18Z
130.79.77.179
0
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
a9c745645bc7036f49dc9dc91254602ec8088b3a
1601
1564
2007-04-24T08:10:39Z
Huault
7
/* Librairies internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
7415ed63fd244e70ea1c16e1e54fb1a4048491da
UCSCGenomes
0
1284
1565
1484
2007-04-17T12:59:42Z
130.79.78.212
0
wikitext
text/x-wiki
UCSCGenomes concerne beaucoup de choses:
Attention: les positions des nucléotides dans UCSC sont comptées à partir de 0
Il y a donc un décalage de 1.
==Hoan et Raymond ont chargé quelques tables de UCSC dans la base de données [[Bird]] (sous DB2)==
On y a accès par
* En mode console
** '''setbird'''
** '''bird_explorer_ucsc''' query outfile format=(flat|xml) display=(yes|no)
* par webservice
** on attend l'url de Hoan
* par '''gscope''' (la suite est à confirmer par '''oue''')
** '''BirdGetFields''' NM f1,f2,f3
** '''Bird''' Query Format Out (Format = (xml|flat|documentElement) Out=(GetResult|nomdufichierdesortie))
** '''NPduNM''' NM (rend le NP)
** '''GenesFromZone''' Debut Fin Orga Chro Strand FromWhere (Orga=(Human|Mouse), Chr=(chr1|chr2|...|chrX|chrY), Strand=(+|F|-|R))
** '''LocIn''' Position Orga Chro Strand
** '''LocAfter''' Position Orga Chro Strand
** '''LocBefore''' Position Orga Chro Strand
==Les tables Database==
On y trouve refGene.txt knownGene.txt etc.
==Les séquences==
* Les sequences ADN des chromosomes voir dans
** /genomics/UCSCGenomes/Homo_sapiens/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200603
** /genomics/UCSCGenomes/Homo_sapiens/bigZips200405
** /genomics/UCSCGenomes/Mus_musculus/bigZips (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/bigZips200602
** /genomics/UCSCGenomes/Mus_musculus/bigZips200503
==Les banques BLAT==
* Les banques BLAT créées à partir de ces bigZips
** /genomics/UCSCGenomes/Homo_sapiens/blat (meme que suivant)
** /genomics/UCSCGenomes/Homo_sapiens/blat200603
** /genomics/UCSCGenomes/Homo_sapiens/blat200405
** /genomics/UCSCGenomes/Mus_musculus/blat (meme que suivant)
** /genomics/UCSCGenomes/Mus_musculus/blat200602
** /genomics/UCSCGenomes/Mus_musculus/blat200503
* On peut aussi y trouver les banques blast
Pour faire les BLAT voir dans ~jmuller/gscopublic/blat.tcl
Nous avons mis en place les données concernant les génomes UCSC pour Mouse et Human
Voir [[AffyAnno]] pour les infos équivalentes fournies par [http://www.affymetrix.com Affymetrix]
==LocUcsc==
LocUcsc a été réécrit pour utiliser les données DB2 de Bird
[[Gscope]] fournit des fonctions
'''LocUcsc ListOf Access''' return la liste des Access
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
'''LocUcsc ListOfMouse Access''' return la liste des Access pour Mouse only
90311221c254966292979ecd667c798d5568d805
Main Page
0
1279
1570
1538
2007-04-19T09:16:32Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
b072eb578fb7dbd912287bf0a95c31c1c055384b
1582
1570
2007-04-19T12:18:55Z
130.79.77.139
0
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
1219895b371ec82ecf92f9fa76e7028bfefcde71
Kilida et Alnitak
0
1330
1571
2007-04-19T09:19:03Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida et Alnitak sot nos deux serveurs que l'on bascule allègrement de l'un vers l'autre.
En fait on leur échange les numéros IP.
Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D.
3cb72a107c6a384e131f1c782c3ec6f0497babc9
1572
1571
2007-04-19T09:19:52Z
130.79.78.212
0
wikitext
text/x-wiki
Kilida et Alnitak sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre.
En fait on leur échange les numéros IP.
Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D.
7bc5648335d78896a01459f2aadcb6575941d23f
1573
1572
2007-04-19T09:20:41Z
130.79.78.212
0
wikitext
text/x-wiki
[[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en fausant l'échange des numéros IP.
Il y a en fait deux machines physiques. L'un est une lame en salle machine l'autre une tour dans la salle 3D.
987a3bd64bda96147c83d9115665b92b8be11398
1575
1573
2007-04-19T09:24:18Z
130.79.78.212
0
wikitext
text/x-wiki
[[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en fausant l'échange des numéros IP.
Il y a en fait deux machines physiques. L'un est une [[Lame]] en salle machine l'autre une [[Tour]] dans la salle 3D.
d91d385fbfb2e887c65fe1a9342fbffffe0f1fea
1576
1575
2007-04-19T09:25:45Z
130.79.78.212
0
wikitext
text/x-wiki
[[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en faisant l'échange des numéros IP.
Il y a en fait deux machines physiques. L'un est une [[Lame]] en salle machine l'autre une [[Tour]] dans la salle 3D.
Alnitak est la machine serveur de bases de données visible de l'extérieur.
Kilida est le miroir.
2c9287ddb683ecccf914809a6f21ccdc2d209afe
Kilida
0
1283
1574
1413
2007-04-19T09:23:01Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
==Kilida serveur==
Kilida est destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret] et en attendant il sert de test pour le [http://alnitak.u-strasbg.fr LBGI]
Wikili est le wiki de Kilida
'''Kilida est un PC AMD Opteron qui tourne maintenant sous Ubuntu'''
voir [[Installation de Ubuntu]]
tout ce qui suit est à mettre à jour
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
Le site wwwLinux qui est sur alnitak est pour ainsi dire miroré sur Kilida.
Comment ?
* dans /homeKilida/wwwKilida il y a beaucoup de liens vers wwwLinux/xxx
8b8b23c608ded27029af91feeb59b94c64f16304
1577
1574
2007-04-19T09:32:43Z
130.79.78.212
0
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
==Kilida serveur==
Kilida était destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret].
En attendant il sert de miroir et de machine test car c'est [[Alnitak]] le vrai serveur... voir [[Kilida et Alnitak]]
Kilida est, physiquement, soit la [[Lame]] soit la [[Tour]] et tourne sous Ubuntu
Voir [[Installation de Ubuntu]]
c2007ae90d085417dfbd4422959bbcbac0ce17a7
Installation de Ubuntu
0
1307
1578
1424
2007-04-19T09:33:11Z
130.79.78.212
0
wikitext
text/x-wiki
Ubuntu est un Linux issu de Debian
voir [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme/UbuntuInstallation.txt Installation Ubuntu] par Nicolas et Raymond
On part du DVD fourni par Ubuntu
* On boote dessus ...
** Il demande quoi faire (on prend le 1er avec graphique)
** Il charge un Linux complet sans toucher aux disques
** Sur le bureau il y a une icone "Install"
** Il demande alors sur quel disque ... les partitions à faire etc.
** Tout est graphique et facile.
* [[Installation de CAPweb]]
* [[Installation de R]]
* [[Installation de Tcl/Tk]]
bc61bfdca0646f98be779acaa5664012cf4e1407
Installation de Tcl/Tk
0
1294
1579
1359
2007-04-19T09:42:41Z
Ripp
1
wikitext
text/x-wiki
L'installation de Tcl/Tk est un peu délicate ...
car il faut rajouter des choses à la distrib Linux.
En plus il y a /usr/local/ActiveTcl quie est commun à tous les Linux.
Aucune doc à jour n'est disponible.
b897f5bfefcdd457bd6c6f0117aedde33ec1c3c7
1580
1579
2007-04-19T09:45:27Z
Ripp
1
wikitext
text/x-wiki
L'installation de Tcl/Tk est un peu délicate ...
car il faut rajouter des choses à la distrib Linux.
En plus il y a /usr/local/ActiveTcl qui est commun à tous les Linux.
Aucune doc à jour n'est disponible.
Voir la doc [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PublicDirectory/systeme système] chez Raymond
a65fd8928792266704eed185c86b0304ee4fa3e5
Installation de R
0
1295
1581
1383
2007-04-19T09:47:00Z
Ripp
1
wikitext
text/x-wiki
Le R de /usr/local ne marchait pas
La suite est peut être obsolète.
* rpm -ivh /home/ripp/vrac/R-2.3.0-1.fc4.x86_64.rpm
** il fallait installer tk.8.4.so avant (voir [[Installation de Tcl/Tk]])
* dans R
** > source("http://www.bioconductor.org/biocLite.R")
** > biocLite()
** > source("http://www.bioconductor.org/getBioC.R")
** > getbioC()
* pour les packages de R
** R CMD INSTALL ~ripp/vrac/aws_1.3-2.tar.gz
** R CMD INSTALL R_PACKAGES/GLAD_1.3.0.tar.gz
** R CMD INSTALL R_PACKAGES/MANOR_1.3.0.tar.gz
** R CMD INSTALL R_PACKAGES/cluster_1.10.2.tar.gz
** R CMD INSTALL R_PACKAGES/Hmisc_3.0-7.tar.gz
3287820c882a07c21f2dca530f778fdefc3e7b00
JavOO
0
1331
1583
2007-04-19T12:20:42Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
JavOO is a small multithread server written in Java working on Windows platform
cca726e5f420213fb996674f5e9bc4074e263bf9
1584
1583
2007-04-19T12:22:14Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
JavOO is a small multithread server written in Java working on Windows platform
0ce1bb5507c41db6aeaa53a5d42f918b8eec6802
1585
1584
2007-04-19T12:23:09Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Introduction==
JavOO is a small multithread server written in Java working on Windows platform
==Description==
test description
8a625f135263f1ab272dab4b5c0de91acec6636e
1586
1585
2007-04-19T12:25:17Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Introduction==
JavOO is a small multithread server written in Java working on Windows platform
==Description==
test description
==Installation==
test install
==Usage==
test usage
9d9a0cb2b9f333e68ab6ed01b3cb0de7dee40605
1587
1586
2007-04-19T12:26:19Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Introduction==
JavOO is a small multithread server written in Java working on Windows platform
==Description==
test description
==Download==
test download
==Installation==
test install
==Usage==
test usage
273ec087f9e7ec952c9db6dc8e1de27bd58678ad
1599
1587
2007-04-20T07:17:00Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Introduction==
JavOO is a small multithread server written in Java working on Windows platform
==Download==
test download
==Installation==
test install
==Usage==
test usage
f115311620f19271165e5a38d163fcd11a312cbe
1602
1599
2007-04-24T15:17:14Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : Java Odbc for Office.
==Introduction==
JavOO is a small multithread secure server written in Java and working on Windows platform.
It allows you to share MSAccess and MSExcel resource, making them accessible through SQL
queries.
==Download==
test download
==Installation==
test install
==Usage==
test usage
6e7b2686dc63b15c36d3a20bbe4c00bf5a5f4f9f
1603
1602
2007-04-24T15:18:08Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in Java and working on Windows platform.
It allows you to share MSAccess and MSExcel resource, making them accessible through SQL
queries.
==Download==
test download
==Installation==
test install
==Usage==
test usage
c68e3356ada361f41e803ca5928607927cbe174d
1604
1603
2007-04-24T15:22:33Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in Java and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOOsetup.exe here]
==Installation==
test install
==Usage==
test usage
8e554c3269b31d5400e4add823a62c0eea35b2cd
1605
1604
2007-04-24T15:23:38Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in Java and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
The actual version is beta 1.0 .
==Installation==
test install
==Usage==
test usage
9191db3fbd28bd3e76474007afb8c4841f6ef3fd
1606
1605
2007-04-24T15:28:02Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in Java and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file JavOOsetup.exe and follow the instructions.
By default the program will be installed in C:\Program Files\JavOO\ .
==Usage==
test usage
966f7f5be3f2bbc4bb4484f49e1826bc2b6efa15
1607
1606
2007-04-24T15:28:49Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file JavOOsetup.exe and follow the instructions.
By default the program will be installed in C:\Program Files\JavOO\ .
==Usage==
test usage
14aa21141e77b104b6d82f58e8ed1ee1128225d6
1608
1607
2007-04-24T15:30:15Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in C:\Program Files\JavOO\ .
==Usage==
test usage
63fd83ac2974f3c6a8726b6deb8fa32a4a421b93
1609
1608
2007-04-24T15:30:47Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Usage==
test usage
e39b976c5c423d5550b70ebeaad2b0ef78a7e89a
1610
1609
2007-04-24T15:45:09Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text
editor.
1. Excel file:
==Usage==
test usage
ecf161f7f6107fa09255066092717ee933a2baa3
1611
1610
2007-04-24T15:48:16Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text
editor.
1. Excel file:
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
==Usage==
test usage
64caee408a483c29868090c49fd3f0172de99eac
1612
1611
2007-04-24T15:56:59Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text
editor.
# Excel file:
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
# Access file:
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
test usage
5f49c125bf564d5a5f69a54273ca4f55766b4ff7
1613
1612
2007-04-24T15:59:38Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text
editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
test usage
e303d18dd3b9170859d80f18963e8a3fe96cb2eb
Fed
0
1286
1588
1318
2007-04-19T12:43:36Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This ca be easily done if the creation of new users is centralized on the unique Dieu. The information concerning the new user is then transferred to the local Fed especially the Pk the unique Id of the user.
d960498f6149529ca1ae4a5e57ef7603267da1ab
1589
1588
2007-04-19T15:32:25Z
130.79.77.139
0
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This ca be easily done if the creation of new users is centralized on the unique FedLord. The information concerning the new user is then transferred to the local Fed especially the Pk the unique Id of the user.
01b18a531649d8512214f60a8c48e975eacdc0f4
1590
1589
2007-04-19T15:45:17Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This ca be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
714a2527e4c02464e54b2b1b889ce2f3342fe2c8
1614
1590
2007-04-24T19:02:56Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
8a08acebed6957759af847a22b415d91e022c610
FedLord
0
1332
1591
2007-04-19T15:48:14Z
Ripp
1
wikitext
text/x-wiki
FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases.
If all people are centralised in this database it will be possible to share the access rights within several Fed servers.
2566fb025d5b61790528959a8d803df5deb6de68
LBGI
0
1280
1592
1542
2007-04-19T16:48:51Z
212.198.202.135
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]].
Le Wiki de [[Laëtitia]].
La page wiki de [[User:Dkieffer | David Kieffer]]
51d9a9335c3e901f1eaa56ac1b42e87f701d5bb9
Membres du LBGI
0
1333
1593
2007-04-19T17:10:53Z
212.198.202.135
0
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]]
* [[Radhouene Aniba]]
* [[Yannick-Noël Anno]]
* [[Yahya Benabbou]]
* [[Guillaume Berthommier]]
* [[Laurent Bianchetti]]
* [[Yann Brélivet]]
* [[Sophie Candel]]
* [[Annaïck Carles]]
* [[Anne Friederich]]
* [[Nicolas Gagnière]]
* [[Véronique Geoffroy]]
* [[David Kieffer]]
* [[Odile Lecompte]]
* [[Luc Moulinier]]
* [[Ngoc-Hoan Nguyen]]
* [[Frédéric Plewniak]]
* [[Emmanuel Perrodou]]
* [[Olivier Poch]]
* [[Laëtitia Poidevin]]
* [[Wolfgang Raffelsberger]]
* [[Ravikiran Reddy]]
* [[Raymond Ripp]]
* [[Jean-Claude Thierry]]
* [[Julie Thompson]]
* [[Nicolas Wicker]]
84c68b38845ab2f5988f000521171b6989f1f2b8
Raymond Ripp
0
1334
1594
2007-04-19T17:23:41Z
212.198.202.135
0
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS au [[LGBI]] du [[DBGS]] de l'I[[GBMC]]
074cfd60b8cbd2d34d4c28f26006339344547d28
1595
1594
2007-04-19T17:46:37Z
212.198.202.135
0
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS
<br/>
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]]
<br/>
du Départment de Biologie et Génomique Structurales [[DBGS]]
<br/>
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
b21b8bc341e82c8fab517cbe6e33ed193937d810
1596
1595
2007-04-19T17:48:57Z
212.198.202.135
0
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
48eb58121b4abb2a1cb69e5028edb72e4f6f448b
1597
1596
2007-04-19T17:51:36Z
212.198.202.135
0
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
==Ma vie mon oeuvre==
db72fb4d7a7d39a33c7f9598cacb7c08d5bee12d
1615
1597
2007-04-25T13:14:01Z
130.79.78.212
0
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
==Ma vie mon oeuvre==
[http://raymondripp.fr mapage]
c2de5bc1080fffd4d3513dd46dfba0e4a86c9e58
Yannick-Noël Anno
0
1336
1600
2007-04-22T14:42:42Z
Yannick-Noel
6
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
* '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGenes par défaut)
* '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut)
* '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour)
* '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC)
* '''LocInBoost''' : Recherche si un TFBS se retrouve dans un gène (UTR, CDS, introns) et à quelle distance du gène et de l'entité (intron/exon). (Données par défaut : UCSC knownGenes)
* '''Mapper''' : Recherche le gène le plus proche d'un TFBS (peu importe le brin, en 5', interne ou en 3') et fournit la distance au TSS en vue d'un mapping sur un chromosome moyen. (S'appuie sur LocInBoost, LocAfterBoost et LocBeforeBoost)
* '''Dispatch''' : Classe les distances de Mapper par tranches de N paires de bases en vue d'une représentation graphique.
0d9256aab03324cc61dec517cd3cbc4a975c9e77
Sophie Candel
0
1337
1616
2007-04-25T13:21:42Z
130.79.78.245
0
wikitext
text/x-wiki
[www-bio3d-igbmc-u.strasbg.fr/groupes/poch/candel/PresentationUIMA.ppt Présentation UIMA]
f53e3120bb708b45bb864700791353f5e8a19a89
Sophie Candel
0
1337
1617
1616
2007-04-25T13:23:03Z
130.79.78.245
0
wikitext
text/x-wiki
[www-bio3d-igbmc-u.strasbg.fr/groupes/poch/~candel/PresentationUIMA.ppt Présentation UIMA]
e1d6bcd47116ab077a0c8aab9607c1cd54041494
1618
1617
2007-04-25T13:24:30Z
130.79.78.245
0
wikitext
text/x-wiki
[www-bio3d-igbmc-u.strasbg.fr/groupes/poch/~candel/PresentationUIMA.ppt PrésentationUIMA]
[www.google.fr toto]
fe7a46c5c40e20f01a380230c8ba6e61a0b1fa2b
1619
1618
2007-04-25T13:27:56Z
130.79.78.245
0
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt PrésentationUIMA]
[www.google.fr toto]
20cad35e1f8cedc97d8680da63dc905069fce283
1620
1619
2007-04-25T13:28:49Z
130.79.78.245
0
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
42c05c8b8b38c88c12c2e905a3e3912506de70b0
1621
1620
2007-04-25T13:33:08Z
130.79.78.245
0
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
a0561b23dcdf09a1c9bdebf0fdf9bb61757a3dec
1622
1621
2007-04-25T13:41:55Z
130.79.78.245
0
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
15e85d4a6121597e7e446ded2063c0ee328d1e33
1623
1622
2007-04-26T07:11:36Z
130.79.78.245
0
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
6754ee2618d34f153e2bb271ae85b23845f11e41
File:JavOO.png
6
1338
1624
2007-04-26T09:40:26Z
Berthomg
8
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
JavOO
0
1331
1625
1613
2007-04-26T12:32:38Z
Berthomg
8
/* Usage */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named ''javooconfig.xml''. Edit this file with you favorite text
editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
7ae634581e98a5b080694ab06523693ae3853727
1626
1625
2007-04-26T13:16:42Z
Berthomg
8
/* Configuration */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can
leave them blank.
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
e96d7e35c9c97e0c801ff8ed9be965203a4b8d23
1632
1626
2007-04-26T14:58:49Z
Berthomg
8
/* How to create a selection in Excel */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can
leave them blank.
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
1c5bf6c5a93f3485a749aa9f16d12e9729febdce
1633
1632
2007-04-26T15:03:00Z
Berthomg
8
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
ae6bc05fc1aacec17005d1bc4d3426cfb52644f0
1634
1633
2007-04-26T15:08:35Z
Berthomg
8
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> .
e8e1aed57d7f9afc5b824e03a02754e22a4c59b5
1636
1634
2007-04-27T12:59:22Z
130.79.77.139
0
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer [http://www-bio3d-igbmc.u-strasbg.fr/~berthomg/JavOO/JavOOsetup.exe here].
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> .
fc71c94814f4f97a6012b5dddc367937f03bd668
1642
1636
2007-04-30T14:22:05Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection.
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, deconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> .
b20ebbdff8d3ad26c6e0c2385fe2f1c4f7858539
1643
1642
2007-04-30T14:44:31Z
130.79.77.139
0
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at <Guillaume.Berthommier@igbmc.u-strasbg.fr> .
6480d9139b2d1a37fe8c2fdc99ba5712ce00d0e4
1659
1643
2007-05-04T09:28:30Z
Dkieffer
2
/* Troubleshooting */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
67e86ac9728737b1c1503469ea3993405f422ef2
1670
1659
2007-05-09T09:37:08Z
Berthomg
8
/* Introduction */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible
its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
You can download the Windows installer
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
79d7e47be8cb68f7f5e7657699bdc821b8ae51cc
1671
1670
2007-05-09T09:39:32Z
Berthomg
8
/* Download */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible
its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to Guillaume.Berthommier@igbmc.u-strasbg.fr
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
91796aa20740ce37bb7ce94d56001d6671afe304
1672
1671
2007-05-09T09:41:19Z
Berthomg
8
/* Download */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible
its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
616e4a2a41f009b31d15184482657895163df2cc
1673
1672
2007-05-09T09:54:47Z
Berthomg
8
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example : a laboratory in Madrid has an accessible PC running on Windows and wants to make accessible
its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
77dbb8152195bdc3acd06206031b3b1fd255e3c0
1674
1673
2007-05-09T15:34:14Z
Ripp
1
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
25b877c3e6f6edb5b68c927ca957198864ab0152
1675
1674
2007-05-10T13:41:13Z
Berthomg
8
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button will be used for further development.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
b886f07030168a09e5e7e1a782dc93fdbaeeb3d6
LBGI
0
1280
1627
1592
2007-04-26T13:28:47Z
130.79.77.179
0
wikitext
text/x-wiki
Le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]].
Le Wiki de [[Laëtitia]].
fe199322e4fb26b7da8433cb66c496af08e8c78f
1635
1627
2007-04-27T07:44:05Z
130.79.78.212
0
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
Le Wiki de [[Laëtitia]].
bc36e1beefee18080e151ebf6db37460b0944efc
User:Dkieffer
2
1305
1628
1543
2007-04-26T13:43:06Z
Dkieffer
2
/* Mon parcours au LBGI */
wikitext
text/x-wiki
=Mon parcours au LBGI=
Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker.
Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker.
=Ingénieur chez Genclis=
Ingénieur d'étude depuis 2007 à Genclis Nancy.
=Travaux=
==Journal Club==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007]
=liens=
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros]
6c69fc10caf9940e05e691306f01a85461fff7b0
Unix
0
1312
1629
1549
2007-04-26T13:49:44Z
Dkieffer
2
/* Redirections et tube */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|vi nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
358a50877533fcc66e1b77db07890131ed5bc7ef
1676
1629
2007-05-23T08:57:57Z
Dkieffer
2
/* Visualisation et traitement de fichiers */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[[vi]] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
52298207cc2575ed82375767b76af4d310a93e91
Membres du LBGI
0
1333
1630
1593
2007-04-26T13:54:12Z
Dkieffer
2
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]]
* [[Radhouene Aniba]]
* [[Yannick-Noël Anno]]
* [[Yahya Benabbou]]
* [[Guillaume Berthommier]]
* [[Laurent Bianchetti]]
* [[Yann Brélivet]]
* [[Sophie Candel]]
* [[Annaïck Carles]]
* [[Anne Friederich]]
* [[Nicolas Gagnière]]
* [[Véronique Geoffroy]]
* [[User:Dkieffer | David Kieffer]]
* [[Odile Lecompte]]
* [[Luc Moulinier]]
* [[Ngoc-Hoan Nguyen]]
* [[Frédéric Plewniak]]
* [[Emmanuel Perrodou]]
* [[Olivier Poch]]
* [[Laëtitia Poidevin]]
* [[Wolfgang Raffelsberger]]
* [[Ravikiran Reddy]]
* [[Raymond Ripp]]
* [[Jean-Claude Thierry]]
* [[Julie Thompson]]
* [[Nicolas Wicker]]
2fe69d9d552f88bc3086eef649e835295aba512a
CVS
0
1317
1631
1490
2007-04-26T14:57:07Z
Dkieffer
2
wikitext
text/x-wiki
'''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur alnitak.
Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière].
Vous aurez un répertoire sur /cvs qui sera sous votre responsabilité pour les droits et l'arborescence de vos projets.
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
88173871b051051c5aaa036523e6a1312cb4bce1
Main Page
0
1279
1637
1582
2007-04-28T00:10:31Z
72.32.12.157
0
wikitext
text/x-wiki
[http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832254) wwe ringtones] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=311&FORUM_ID=3&CAT_ID=3 buy fioricet] [http://dompasvi.jubiiblog.de/ sony ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1069 carisoprodol online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=320 clonazepam online] [http://livarsit.blogdiario.com/ qwest ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$108 paxil online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832252) cheap vicodin] [http://www.forumhosting.org/forum.php?mforum=dehays cheap alprazolam] [http://relc4tel.jubiiblog.de/ propecia] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1070 xanax online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=115 xanax online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=324 didrex online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=307&FORUM_ID=3&CAT_ID=3 phentermine online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=139 didrex online] [http://peacedoorball.blogspot.com valium without prescription] [http://www.rso.cmich.edu/prevet/messageboard/000031b6.htm norco online] [http://boc4tmon.blogdiario.com/ nokia ringtones] [http://darrota.blogdiario.com/ free sony ringtones] [http://naughtyburrito.blogspot.com 10 best casino online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=366 order viagra] [http://www.forumhosting.org/forum.php?mforum=acelsitrac free nextel ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$133 ultram online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=321 free cool ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832219) but lorazepam] [http://www.csun.edu/learningnet/discussion/file.php?0,file=154 cingular ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031aa.htm valium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1122 real ringtones] [http://acolosit.jubiiblog.de/ free qwest ringtones] [http://trocviboc.blogdiario.com/ alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=114 carisoprodol online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832212) free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832214) hydrocodone online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=305&FORUM_ID=3&CAT_ID=3 cheap valium] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1111 buy hgh] [http://getcopas.blogdiario.com/ ultracet online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=140 nokia ringtones] [http://eudrayv.blogspot.com picture pill valium] [http://www.forumhosting.org/forum.php?mforum=varbocget lorazepam online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=357 free sony ringtones] [http://bascoor.blogdiario.com/ cheap nexium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=153 free polyphonic ringtones] [http://eldronno.jubiiblog.de/ cheap zoloft] [http://domlili.blogdiario.com/ cool ringtones] [http://psmorrison.blogspot.com snorting valium] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=298&FORUM_ID=3&CAT_ID=3 cheap tramadol] [http://www.rso.cmich.edu/prevet/messageboard/000031d0.htm free mp3 ringtone] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1071 cheap fioricet] [http://zellial.jubiiblog.de/ ultracet online] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$138 but xanax] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$137 vicodin] [http://nodarel.blogdiario.com/ cheap meridia] [http://smallbald.blogspot.com best casino gambling online] [http://chuvak-org.blogspot.com valium dosage] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/citybix.htm xanax online] [http://elcnazel.blogdiario.com/ prozac online] [http://discussions.csbsju.edu/general/messages/25/tonywe-230.html cheap carisoprodol] [http://www.forumhosting.org/forum.php?mforum=ololitroc cheap propecia] [http://ersitget.jubiiblog.de/ lisinopril online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832197) alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=151 free music ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$89 alprazolam online] [http://www.rso.cmich.edu/prevet/messageboard/000031d5.htm real ringtones] [http://reltrdar.blogdiario.com/ propecia] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$102 motorola ringtones] [http://domc4tvi.blogdiario.com/ but soma] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1103 buy tenuate] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$87 adipex online] [http://discussions.csbsju.edu/general/messages/25/rizo-242.html meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832239) samsung ringtones] [http://getelor.blogdiario.com/ free mtv ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=146 free qwest ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832200) cheap carisoprodol] [http://c4tacdom.jubiiblog.de/ free sonyericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1082 cheap clonazepam] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$112 free real ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1073 diazepam online] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/konevow.htm mono ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/soseh.htm free verizon ringtone] [http://caboel.blogdiario.com/ clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1139 wwe ringtones] [http://drongetpas.blogdiario.com/ online didrex] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/pinyt.htm free sprint ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832195) buy adipex] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832202) free cingular ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=110 tramadol online] [http://mkiss47346.blogspot.com advice casino online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832240) free sharp ringtones] [http://www.forumhosting.org/forum.php?mforum=monoror cheap cyclobenzaprine] [http://www.forumhosting.org/forum.php?mforum=rellileto free sprint ringtones] [http://discussions.csbsju.edu/general/messages/25/rojyl-228.html cheap valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=122 meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832244) free sonyericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=313 free alltel ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=328 funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832247) buy ultracet] [http://eralchi.blogdiario.com/ music ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1067 cheap valium] [http://www.forumhosting.org/forum.php?mforum=fonewbur cialis online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=346 phentermine online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1143 free mtv ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/hocij.htm generic levitra] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1116 free free ringtones] [http://www.forumhosting.org/forum.php?mforum=wolena clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1127 verizon ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b3.htm generic viagra] [http://www.forumhosting.org/forum.php?mforum=cnaorboc buy ambien] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=342 nextel ringtones] [http://elllimacc87.blogspot.com lexapro and valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=131 ambien online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=368 wellbutrin online] [http://www.forumhosting.org/forum.php?mforum=getboctroc buy wellbutrin] [http://www.forumhosting.org/forum.php?mforum=pasletosit tracfone ringtones] [http://www.forumhosting.org/forum.php?mforum=rolouacel free mp3 ringtones] [http://basacelta.blogdiario.com/ real ringtones] [http://www.forumhosting.org/forum.php?mforum=escaffey phentermine] [http://www.forumhosting.org/forum.php?mforum=pijasper soma online] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/vuzo.htm diazepam online] [http://www.forumhosting.org/forum.php?mforum=tevaith norco online] [http://bocvidom.jubiiblog.de/ cheap fioricet] [http://eltaget.jubiiblog.de/ cingular ringtones] [http://sitbasel.jubiiblog.de/ free real ringtones] [http://nodelolo.jubiiblog.de/ cheap albuterol] [http://www.forumhosting.org/forum.php?mforum=darerla polyphonic ringtones] [http://caviou.jubiiblog.de/ prozac online] [http://rolvidel.jubiiblog.de/ cheap cialis] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=315 online ambien] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1102 celexa online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1093 propecia online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=149 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832223) motorola ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1118 free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832245) free sprint ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=150 free sprint ringtones] [http://cocoleto.blogdiario.com/ cheap phentermine] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$97 free free ringtones] [http://trrelvar.blogdiario.com/ kyocera ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1114 buy zyban] [http://www.csun.edu/learningnet/discussion/file.php?0,file=158 free mono ringtones] [http://discussions.csbsju.edu/general/messages/25/gulel-233.html ultram online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1088 online xenical] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/veco.htm free real ringtones] [http://chibovi.blogdiario.com/ cheap xenical] [http://www.forumhosting.org/forum.php?mforum=chitrel cingular ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=331 free kyocera ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$122 sonyericsson ringtones] [http://handspunyarns.blogspot.com valium overdose] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832209) free ericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=326 fioricet] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$116 cheap soma] [http://liricbo.blogdiario.com/ wellbutrin online] [http://carolli.blogdiario.com/ cheap fioricet] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1089 cheap wellbutrin] [http://www.forumhosting.org/forum.php?mforum=olositbo sharp ringtones] [http://leeticarus.blogspot.com what does valium do] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=341 nexium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1138 midi ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=156 free sonyericsson ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031c4.htm cheap paxil] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832221) free midi ringtones] [http://sand-stars.blogspot.com valium sale] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1086 cheap ambien] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$124 free sprint ringtones] [http://orladron.jubiiblog.de/ cheap adipex] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=316 ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1091 buy nexium] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/zyxuwu.htm free sagem ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832199) cheap ativan] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=336 mono ringtones] [http://delricc.blogdiario.com/ cheap lorazepam] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=327 free ringtones] [http://taroelt.jubiiblog.de/ free mono ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=147 real ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b2.htm cheap ativan] [http://discussions.csbsju.edu/general/messages/25/gejobi-229.html buy phentermine] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/popydi.htm cheap norco] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1142 ericsson ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$92 cialis online] [http://www.forumhosting.org/forum.php?mforum=acdrago ultram online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832229) free nokia ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=129 cheap levitra] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832237) free real ringtones] [http://cacorol.blogdiario.com/ ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1104 cheap ortho] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832211) free ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=353 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832206) order cyclobenzaprine] [http://relgetvar.jubiiblog.de/ cheap wellbutrin] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=349 free punk ringtones] [http://pasorbas.jubiiblog.de/ free cool ringtones] [http://vigetc.jubiiblog.de/ clomid online] [http://livior.blogdiario.com/ free alltel ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1106 cheap lortab] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832207) online diazepam] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1130 free sagem ringtones] [http://www.forumhosting.org/forum.php?mforum=sajohnst ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1123 motorola ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$105 free nextel ringtones] [http://racalmon.jubiiblog.de/ meridia online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1115 nokia ringtones] Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
c055d22b266ab9795b97296844bac56e0bf40491
1640
1637
2007-04-29T22:45:55Z
217.27.95.70
0
wikitext
text/x-wiki
[http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=14 soma online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/hebur.htm qwest ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=756 free verizon ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=729 cheap clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/kygo.htm free kyocera ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/suvycez.htm cheap soma] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jucidul.htm cheap hgh] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pyro.htm buy ambien] [http://grid.unimelb.edu.au/twiki/pub/Main/NoriJohn/bepi.htm free nextel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000315.html xenical online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kyvydin.htm norco online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48834 cheap tramadol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49026 vicodin online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/tidu.htm verizon ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/jivugyv.htm free alltel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000371.html music ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=748 soma online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=52 funny ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=731 funny ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/cogope.htm cialis] [http://dcc.syr.edu/dforum/message.asp?MessageID=49058 tracfone ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/solizup.htm buy tramadol] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/ArturJonson xanax online] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/duxeru.htm but vigrx] [http://dcc.syr.edu/dforum/message.asp?MessageID=49066 samsung ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/wytyvib.htm fioricet online] [http://bugzilla.internet2.edu/attachment.cgi?id=741 buy paxil] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=40 cheap ambien] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/tijohyw.htm free sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jetok.htm mp3 ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=20 cheap fioricet] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/pefuwe.htm lipitor online] [http://ist.greenville.edu/drupal/files/wohux.html ultracet online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/ligi.htm tenuate online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/cucof.htm soma online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/LukeLookin cheap phentermine] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/pinucep.htm cheap vicodin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/hujox.htm cheap ortho] [http://ist.greenville.edu/drupal/files/wusywyx.html cheap vicodin] [http://ist.greenville.edu/drupal/files/lunic.html cheap levitra] [http://dcc.syr.edu/dforum/message.asp?MessageID=49024 adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/vuxinuz.htm motorola ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=722 adipex online] [http://www.hollins.edu/ubb/Forum32/HTML/000365.html free nextel ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=21 cheap ultram] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jusify.htm nokia ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=262 free funny ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48922 buy carisoprodol] [http://bugzilla.internet2.edu/attachment.cgi?id=742 buy phentermine] [http://www.hollins.edu/ubb/Forum32/HTML/000283.html valium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/jowili.htm free qwest ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000342.html cheap tenuate] [http://bugzilla.internet2.edu/attachment.cgi?id=750 sonyericsson ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/licox.htm motorola ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000319.html cheap cyclobenzaprine] [http://www.hollins.edu/ubb/Forum32/HTML/000295.html norco online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/tokuny.htm lortab online] [http://www.hollins.edu/ubb/Forum32/HTML/000354.html cheap flexeril] [http://bugzilla.internet2.edu/attachment.cgi?id=752 free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000285.html carisoprodol online] [http://www.hollins.edu/ubb/Forum32/HTML/000299.html paxil] [http://dcc.syr.edu/dforum/message.asp?MessageID=49063 qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=249 tramadol online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sywexyc.htm buy levitra] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/zexuc.htm didrex online] [http://www.hollins.edu/ubb/Forum32/HTML/000380.html punk ringtones] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kite.htm ultracet] [http://www.hollins.edu/ubb/Forum32/HTML/000311.html hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=42 buy xenical] [http://ist.greenville.edu/drupal/files/luho.html nokia ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/rufog.htm sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jujope.htm diethylpropion online] [http://www.hollins.edu/ubb/Forum32/HTML/000294.html online adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/roteryh.htm polyphonic ringtones] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/AndreaHolivel cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49016 ultram online] [http://www.hollins.edu/ubb/Forum32/HTML/000336.html clomid online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/hijosij.htm sagem ringtones] [http://ist.greenville.edu/drupal/files/bigibe.html nextel ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49027 order alprazolam] [http://www.hollins.edu/ubb/Forum32/HTML/000288.html cheap ultram] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hicif.htm alprazolam online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/sujy.htm samsung ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=25 cheap viagra] [http://bugzilla.internet2.edu/attachment.cgi?id=735 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/jybuhi.htm viagra online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48916 cheap phentermine] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=256 cheap ultram] [http://bugzilla.internet2.edu/attachment.cgi?id=760 cheap diazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/xyhyj.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/vuru.htm ativan online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hykidi.htm clonazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000281.html cheap tramadol] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=253 buy carisoprodol] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=26 cheap meridia] [http://ist.greenville.edu/drupal/files/dydyse.html cheap valium] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rukexo.htm zoloft online] [http://ist.greenville.edu/drupal/files/kuxer.html order cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/cybo.htm free sonyericsson ringtones] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/nezyz.htm flexeril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/lyfogo.htm online xanax] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/wofo.htm free nokia ringtones] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sonuhop.htm valium online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pevesuz.htm cheap wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rypel.htm sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000339.html cheap zoloft] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=251 cheap valium] [http://www.hollins.edu/ubb/Forum32/HTML/000384.html midi ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000290.html cheap cialis] [http://bugzilla.internet2.edu/attachment.cgi?id=744 free qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=266 real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/kino.htm free real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/belizyl.htm polyphonic ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/dijuxoj.htm free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000322.html cheap ultracet] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=28 cheap norco] [http://dcc.syr.edu/dforum/message.asp?MessageID=49072 polyphonic ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=732 levitra online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/woguked.htm ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000334.html sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000333.html prozac online] [http://ist.greenville.edu/drupal/files/rucod.html xanax online] [http://www.hollins.edu/ubb/Forum32/HTML/000343.html cheap ortho] [http://ist.greenville.edu/drupal/files/wypy.html free funny ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000296.html cheap vicodin] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/koky.htm cheap phentermine] [http://bugzilla.internet2.edu/attachment.cgi?id=740 norco online] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/figog.htm buy lortab] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kozu.htm hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=24 cheap ativan] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/godufit.htm buy paxil] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/sevuv.htm mono ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=755 valium] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sicofyr.htm tramadol online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/kuvodoj.htm zoloft online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49034 hydrocodone] [http://dcc.syr.edu/dforum/message.asp?MessageID=49022 viagra online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/niwupu.htm cheap albuterol] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/gedenu.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/dyzoko.htm verizon ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000314.html lorazepam] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/rejyvob.htm viagra online] [http://www.hollins.edu/ubb/Forum32/HTML/000325.html cheap didrex] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/kuzypuh.htm phentermine online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/nofelyr.htm free cingular ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000389.html ericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49077 free sony ericsson ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=267 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/kuluc.htm zanaflex online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gekiw.htm order flexeril] [http://www.hollins.edu/ubb/Forum32/HTML/000369.html samsung ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=259 free nokia ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=22 diazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000376.html free sonyericsson ringtones] [http://ist.greenville.edu/drupal/files/devowy.html buy lorazepam] [http://ist.greenville.edu/drupal/files/role.html real ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000351.html rivotril] [http://www.hollins.edu/ubb/Forum32/HTML/000312.html ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000337.html albuterol online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49018 cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49035 ambien online] [http://bugzilla.internet2.edu/attachment.cgi?id=746 sagem ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49025 norco online] [http://ist.greenville.edu/drupal/files/puweso.html cheap meridia] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/cibedis.htm nexium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/zivy.htm free mono ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000352.html hgh online] [http://bugzilla.internet2.edu/attachment.cgi?id=754 ultram online] [http://ist.greenville.edu/drupal/files/ruwyze.html cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/linefej.htm buy wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/rofev.htm free free ringtones] [http://ist.greenville.edu/drupal/files/pobiwi.html cheap diazepam] [http://bugzilla.internet2.edu/attachment.cgi?id=751 free sprint ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000345.html lortab online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/bopogo.htm buy carisoprodol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49071 free verizon ringtones] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/relu.htm buy clomid] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sifus.htm xenical online] [http://bugzilla.internet2.edu/attachment.cgi?id=759 order xanax] [http://www.hollins.edu/ubb/Forum32/HTML/000360.html free ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=43 wellbutrin online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=15 carisoprodol online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/DikVolirev tracfone ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/popuxo.htm free sharp ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000291.html buy ativan] [http://ist.greenville.edu/drupal/files/covubi.html buy norco] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/wetule.htm free sony ericsson ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000362.html tracfone ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49075 free sonyericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48901 soma online] [http://www.hollins.edu/ubb/Forum32/HTML/000293.html meridia online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gelol.htm zyban online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/rigyse.htm clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/kohe.htm free music ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pybex.htm cheap cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/pero.htm cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/huvixu.htm paxil online] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/nunuso.htm cheap ativan] [http://dcc.syr.edu/dforum/message.asp?MessageID=49046 but nexium] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/cohufyk.htm mp3 ringtones] [http://pathology.jhu.edu/N/n.web?EP=N
bd2753958c9bc647c8747ad0e86098ae894f762a
1653
1640
2007-05-03T12:37:59Z
Gagniere
3
Reverted edit of 217.27.95.70, changed back to last version by 72.32.12.157
wikitext
text/x-wiki
[http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832254) wwe ringtones] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=311&FORUM_ID=3&CAT_ID=3 buy fioricet] [http://dompasvi.jubiiblog.de/ sony ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1069 carisoprodol online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=320 clonazepam online] [http://livarsit.blogdiario.com/ qwest ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$108 paxil online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832252) cheap vicodin] [http://www.forumhosting.org/forum.php?mforum=dehays cheap alprazolam] [http://relc4tel.jubiiblog.de/ propecia] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1070 xanax online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=115 xanax online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=324 didrex online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=307&FORUM_ID=3&CAT_ID=3 phentermine online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=139 didrex online] [http://peacedoorball.blogspot.com valium without prescription] [http://www.rso.cmich.edu/prevet/messageboard/000031b6.htm norco online] [http://boc4tmon.blogdiario.com/ nokia ringtones] [http://darrota.blogdiario.com/ free sony ringtones] [http://naughtyburrito.blogspot.com 10 best casino online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=366 order viagra] [http://www.forumhosting.org/forum.php?mforum=acelsitrac free nextel ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$133 ultram online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=321 free cool ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832219) but lorazepam] [http://www.csun.edu/learningnet/discussion/file.php?0,file=154 cingular ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031aa.htm valium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1122 real ringtones] [http://acolosit.jubiiblog.de/ free qwest ringtones] [http://trocviboc.blogdiario.com/ alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=114 carisoprodol online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832212) free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832214) hydrocodone online] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=305&FORUM_ID=3&CAT_ID=3 cheap valium] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1111 buy hgh] [http://getcopas.blogdiario.com/ ultracet online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=140 nokia ringtones] [http://eudrayv.blogspot.com picture pill valium] [http://www.forumhosting.org/forum.php?mforum=varbocget lorazepam online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=357 free sony ringtones] [http://bascoor.blogdiario.com/ cheap nexium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=153 free polyphonic ringtones] [http://eldronno.jubiiblog.de/ cheap zoloft] [http://domlili.blogdiario.com/ cool ringtones] [http://psmorrison.blogspot.com snorting valium] [http://forum.kharkiv.edu/SForums/topic.asp?TOPIC_ID=298&FORUM_ID=3&CAT_ID=3 cheap tramadol] [http://www.rso.cmich.edu/prevet/messageboard/000031d0.htm free mp3 ringtone] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1071 cheap fioricet] [http://zellial.jubiiblog.de/ ultracet online] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$138 but xanax] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$137 vicodin] [http://nodarel.blogdiario.com/ cheap meridia] [http://smallbald.blogspot.com best casino gambling online] [http://chuvak-org.blogspot.com valium dosage] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/citybix.htm xanax online] [http://elcnazel.blogdiario.com/ prozac online] [http://discussions.csbsju.edu/general/messages/25/tonywe-230.html cheap carisoprodol] [http://www.forumhosting.org/forum.php?mforum=ololitroc cheap propecia] [http://ersitget.jubiiblog.de/ lisinopril online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832197) alprazolam online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=151 free music ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$89 alprazolam online] [http://www.rso.cmich.edu/prevet/messageboard/000031d5.htm real ringtones] [http://reltrdar.blogdiario.com/ propecia] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$102 motorola ringtones] [http://domc4tvi.blogdiario.com/ but soma] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1103 buy tenuate] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$87 adipex online] [http://discussions.csbsju.edu/general/messages/25/rizo-242.html meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832239) samsung ringtones] [http://getelor.blogdiario.com/ free mtv ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=146 free qwest ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832200) cheap carisoprodol] [http://c4tacdom.jubiiblog.de/ free sonyericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1082 cheap clonazepam] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$112 free real ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1073 diazepam online] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/konevow.htm mono ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/soseh.htm free verizon ringtone] [http://caboel.blogdiario.com/ clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1139 wwe ringtones] [http://drongetpas.blogdiario.com/ online didrex] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/pinyt.htm free sprint ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832195) buy adipex] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832202) free cingular ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=110 tramadol online] [http://mkiss47346.blogspot.com advice casino online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832240) free sharp ringtones] [http://www.forumhosting.org/forum.php?mforum=monoror cheap cyclobenzaprine] [http://www.forumhosting.org/forum.php?mforum=rellileto free sprint ringtones] [http://discussions.csbsju.edu/general/messages/25/rojyl-228.html cheap valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=122 meridia online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832244) free sonyericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=313 free alltel ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=328 funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832247) buy ultracet] [http://eralchi.blogdiario.com/ music ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1067 cheap valium] [http://www.forumhosting.org/forum.php?mforum=fonewbur cialis online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=346 phentermine online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1143 free mtv ringtones] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/hocij.htm generic levitra] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1116 free free ringtones] [http://www.forumhosting.org/forum.php?mforum=wolena clonazepam online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1127 verizon ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b3.htm generic viagra] [http://www.forumhosting.org/forum.php?mforum=cnaorboc buy ambien] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=342 nextel ringtones] [http://elllimacc87.blogspot.com lexapro and valium] [http://www.csun.edu/learningnet/discussion/file.php?0,file=131 ambien online] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=368 wellbutrin online] [http://www.forumhosting.org/forum.php?mforum=getboctroc buy wellbutrin] [http://www.forumhosting.org/forum.php?mforum=pasletosit tracfone ringtones] [http://www.forumhosting.org/forum.php?mforum=rolouacel free mp3 ringtones] [http://basacelta.blogdiario.com/ real ringtones] [http://www.forumhosting.org/forum.php?mforum=escaffey phentermine] [http://www.forumhosting.org/forum.php?mforum=pijasper soma online] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/vuzo.htm diazepam online] [http://www.forumhosting.org/forum.php?mforum=tevaith norco online] [http://bocvidom.jubiiblog.de/ cheap fioricet] [http://eltaget.jubiiblog.de/ cingular ringtones] [http://sitbasel.jubiiblog.de/ free real ringtones] [http://nodelolo.jubiiblog.de/ cheap albuterol] [http://www.forumhosting.org/forum.php?mforum=darerla polyphonic ringtones] [http://caviou.jubiiblog.de/ prozac online] [http://rolvidel.jubiiblog.de/ cheap cialis] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=315 online ambien] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1102 celexa online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1093 propecia online] [http://www.csun.edu/learningnet/discussion/file.php?0,file=149 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832223) motorola ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1118 free funny ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832245) free sprint ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=150 free sprint ringtones] [http://cocoleto.blogdiario.com/ cheap phentermine] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$97 free free ringtones] [http://trrelvar.blogdiario.com/ kyocera ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1114 buy zyban] [http://www.csun.edu/learningnet/discussion/file.php?0,file=158 free mono ringtones] [http://discussions.csbsju.edu/general/messages/25/gulel-233.html ultram online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1088 online xenical] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/veco.htm free real ringtones] [http://chibovi.blogdiario.com/ cheap xenical] [http://www.forumhosting.org/forum.php?mforum=chitrel cingular ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=331 free kyocera ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$122 sonyericsson ringtones] [http://handspunyarns.blogspot.com valium overdose] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832209) free ericsson ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=326 fioricet] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$116 cheap soma] [http://liricbo.blogdiario.com/ wellbutrin online] [http://carolli.blogdiario.com/ cheap fioricet] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1089 cheap wellbutrin] [http://www.forumhosting.org/forum.php?mforum=olositbo sharp ringtones] [http://leeticarus.blogspot.com what does valium do] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=341 nexium online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1138 midi ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=156 free sonyericsson ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031c4.htm cheap paxil] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832221) free midi ringtones] [http://sand-stars.blogspot.com valium sale] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1086 cheap ambien] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$124 free sprint ringtones] [http://orladron.jubiiblog.de/ cheap adipex] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=316 ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1091 buy nexium] [http://www.hcs.harvard.edu/~twiki/pub/Main/AngelKristofer/zyxuwu.htm free sagem ringtone] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832199) cheap ativan] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=336 mono ringtones] [http://delricc.blogdiario.com/ cheap lorazepam] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=327 free ringtones] [http://taroelt.jubiiblog.de/ free mono ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=147 real ringtones] [http://www.rso.cmich.edu/prevet/messageboard/000031b2.htm cheap ativan] [http://discussions.csbsju.edu/general/messages/25/gejobi-229.html buy phentermine] [http://www.hcs.harvard.edu/~twiki/pub/Main/CoyarCharline/popydi.htm cheap norco] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1142 ericsson ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$92 cialis online] [http://www.forumhosting.org/forum.php?mforum=acdrago ultram online] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832229) free nokia ringtones] [http://www.csun.edu/learningnet/discussion/file.php?0,file=129 cheap levitra] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832237) free real ringtones] [http://cacorol.blogdiario.com/ ericsson ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1029?id=atch1104 cheap ortho] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832211) free ringtones] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=353 samsung ringtones] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832206) order cyclobenzaprine] [http://relgetvar.jubiiblog.de/ cheap wellbutrin] [https://www-internal.slac.stanford.edu/glast/integrationtest/online/Forum/topic.asp?TOPIC_ID=349 free punk ringtones] [http://pasorbas.jubiiblog.de/ free cool ringtones] [http://vigetc.jubiiblog.de/ clomid online] [http://livior.blogdiario.com/ free alltel ringtones] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1106 cheap lortab] [http://pathology.jhu.edu/N/n.web?EP=N&URL=/MCGI/SEND1^WEBUTLTY(200,832207) online diazepam] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1031?id=atch1130 free sagem ringtones] [http://www.forumhosting.org/forum.php?mforum=sajohnst ativan online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1123 motorola ringtones] [http://www8.vjc.edu/EnvironmentalClub/discuss/msgReader$105 free nextel ringtones] [http://racalmon.jubiiblog.de/ meridia online] [http://src.moffitt.usf.edu/sf/sfmain/do/downloadAttachment/projects.jaffy/tracker.bug_tracker/artf1030?id=atch1115 nokia ringtones] Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
c055d22b266ab9795b97296844bac56e0bf40491
1654
1653
2007-05-03T12:39:37Z
Gagniere
3
Reverted edit of Gagniere, changed back to last version by 217.27.95.70
wikitext
text/x-wiki
[http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=14 soma online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/hebur.htm qwest ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=756 free verizon ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=729 cheap clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/kygo.htm free kyocera ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/suvycez.htm cheap soma] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jucidul.htm cheap hgh] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pyro.htm buy ambien] [http://grid.unimelb.edu.au/twiki/pub/Main/NoriJohn/bepi.htm free nextel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000315.html xenical online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kyvydin.htm norco online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48834 cheap tramadol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49026 vicodin online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/tidu.htm verizon ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/jivugyv.htm free alltel ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000371.html music ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=748 soma online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=52 funny ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=731 funny ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/cogope.htm cialis] [http://dcc.syr.edu/dforum/message.asp?MessageID=49058 tracfone ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/solizup.htm buy tramadol] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/ArturJonson xanax online] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/duxeru.htm but vigrx] [http://dcc.syr.edu/dforum/message.asp?MessageID=49066 samsung ringtones] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/wytyvib.htm fioricet online] [http://bugzilla.internet2.edu/attachment.cgi?id=741 buy paxil] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=40 cheap ambien] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/tijohyw.htm free sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jetok.htm mp3 ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=20 cheap fioricet] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/pefuwe.htm lipitor online] [http://ist.greenville.edu/drupal/files/wohux.html ultracet online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/ligi.htm tenuate online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/cucof.htm soma online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/LukeLookin cheap phentermine] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/pinucep.htm cheap vicodin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/hujox.htm cheap ortho] [http://ist.greenville.edu/drupal/files/wusywyx.html cheap vicodin] [http://ist.greenville.edu/drupal/files/lunic.html cheap levitra] [http://dcc.syr.edu/dforum/message.asp?MessageID=49024 adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/vuxinuz.htm motorola ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=722 adipex online] [http://www.hollins.edu/ubb/Forum32/HTML/000365.html free nextel ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=21 cheap ultram] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/jusify.htm nokia ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=262 free funny ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48922 buy carisoprodol] [http://bugzilla.internet2.edu/attachment.cgi?id=742 buy phentermine] [http://www.hollins.edu/ubb/Forum32/HTML/000283.html valium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/jowili.htm free qwest ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000342.html cheap tenuate] [http://bugzilla.internet2.edu/attachment.cgi?id=750 sonyericsson ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/licox.htm motorola ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000319.html cheap cyclobenzaprine] [http://www.hollins.edu/ubb/Forum32/HTML/000295.html norco online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/tokuny.htm lortab online] [http://www.hollins.edu/ubb/Forum32/HTML/000354.html cheap flexeril] [http://bugzilla.internet2.edu/attachment.cgi?id=752 free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000285.html carisoprodol online] [http://www.hollins.edu/ubb/Forum32/HTML/000299.html paxil] [http://dcc.syr.edu/dforum/message.asp?MessageID=49063 qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=249 tramadol online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sywexyc.htm buy levitra] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/zexuc.htm didrex online] [http://www.hollins.edu/ubb/Forum32/HTML/000380.html punk ringtones] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kite.htm ultracet] [http://www.hollins.edu/ubb/Forum32/HTML/000311.html hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=42 buy xenical] [http://ist.greenville.edu/drupal/files/luho.html nokia ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/rufog.htm sprint ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/jujope.htm diethylpropion online] [http://www.hollins.edu/ubb/Forum32/HTML/000294.html online adipex] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/roteryh.htm polyphonic ringtones] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/AndreaHolivel cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49016 ultram online] [http://www.hollins.edu/ubb/Forum32/HTML/000336.html clomid online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/hijosij.htm sagem ringtones] [http://ist.greenville.edu/drupal/files/bigibe.html nextel ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49027 order alprazolam] [http://www.hollins.edu/ubb/Forum32/HTML/000288.html cheap ultram] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hicif.htm alprazolam online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/sujy.htm samsung ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=25 cheap viagra] [http://bugzilla.internet2.edu/attachment.cgi?id=735 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/jybuhi.htm viagra online] [http://dcc.syr.edu/dforum/message.asp?MessageID=48916 cheap phentermine] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=256 cheap ultram] [http://bugzilla.internet2.edu/attachment.cgi?id=760 cheap diazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/xyhyj.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/vuru.htm ativan online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/hykidi.htm clonazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000281.html cheap tramadol] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=253 buy carisoprodol] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=26 cheap meridia] [http://ist.greenville.edu/drupal/files/dydyse.html cheap valium] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rukexo.htm zoloft online] [http://ist.greenville.edu/drupal/files/kuxer.html order cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/cybo.htm free sonyericsson ringtones] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/nezyz.htm flexeril online] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/lyfogo.htm online xanax] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/wofo.htm free nokia ringtones] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sonuhop.htm valium online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pevesuz.htm cheap wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/rypel.htm sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000339.html cheap zoloft] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=251 cheap valium] [http://www.hollins.edu/ubb/Forum32/HTML/000384.html midi ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000290.html cheap cialis] [http://bugzilla.internet2.edu/attachment.cgi?id=744 free qwest ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=266 real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/kino.htm free real ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/belizyl.htm polyphonic ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/PhillipRewers/dijuxoj.htm free tracfone ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000322.html cheap ultracet] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=28 cheap norco] [http://dcc.syr.edu/dforum/message.asp?MessageID=49072 polyphonic ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=732 levitra online] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/woguked.htm ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000334.html sildenafil online] [http://www.hollins.edu/ubb/Forum32/HTML/000333.html prozac online] [http://ist.greenville.edu/drupal/files/rucod.html xanax online] [http://www.hollins.edu/ubb/Forum32/HTML/000343.html cheap ortho] [http://ist.greenville.edu/drupal/files/wypy.html free funny ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000296.html cheap vicodin] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BilyKroft/koky.htm cheap phentermine] [http://bugzilla.internet2.edu/attachment.cgi?id=740 norco online] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/figog.htm buy lortab] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/kozu.htm hydrocodone online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=24 cheap ativan] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/godufit.htm buy paxil] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/sevuv.htm mono ringtones] [http://bugzilla.internet2.edu/attachment.cgi?id=755 valium] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/sicofyr.htm tramadol online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/kuvodoj.htm zoloft online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49034 hydrocodone] [http://dcc.syr.edu/dforum/message.asp?MessageID=49022 viagra online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/BettySmith/niwupu.htm cheap albuterol] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/gedenu.htm rivotril online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/dyzoko.htm verizon ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000314.html lorazepam] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/rejyvob.htm viagra online] [http://www.hollins.edu/ubb/Forum32/HTML/000325.html cheap didrex] [http://ccfl.unl.edu/twiki/pub/Main/SummersFrank/kuzypuh.htm phentermine online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/nofelyr.htm free cingular ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000389.html ericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49077 free sony ericsson ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=267 free motorola ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/kuluc.htm zanaflex online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gekiw.htm order flexeril] [http://www.hollins.edu/ubb/Forum32/HTML/000369.html samsung ringtones] [http://devel.linux.duke.edu/bugzilla/attachment.cgi?id=259 free nokia ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=22 diazepam online] [http://www.hollins.edu/ubb/Forum32/HTML/000376.html free sonyericsson ringtones] [http://ist.greenville.edu/drupal/files/devowy.html buy lorazepam] [http://ist.greenville.edu/drupal/files/role.html real ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000351.html rivotril] [http://www.hollins.edu/ubb/Forum32/HTML/000312.html ambien online] [http://www.hollins.edu/ubb/Forum32/HTML/000337.html albuterol online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49018 cialis online] [http://dcc.syr.edu/dforum/message.asp?MessageID=49035 ambien online] [http://bugzilla.internet2.edu/attachment.cgi?id=746 sagem ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49025 norco online] [http://ist.greenville.edu/drupal/files/puweso.html cheap meridia] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/cibedis.htm nexium online] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/zivy.htm free mono ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000352.html hgh online] [http://bugzilla.internet2.edu/attachment.cgi?id=754 ultram online] [http://ist.greenville.edu/drupal/files/ruwyze.html cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/linefej.htm buy wellbutrin] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/rofev.htm free free ringtones] [http://ist.greenville.edu/drupal/files/pobiwi.html cheap diazepam] [http://bugzilla.internet2.edu/attachment.cgi?id=751 free sprint ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000345.html lortab online] [http://grid.unimelb.edu.au/twiki/pub/Main/JamesMiller/bopogo.htm buy carisoprodol] [http://dcc.syr.edu/dforum/message.asp?MessageID=49071 free verizon ringtones] [http://ccfl.unl.edu/twiki/pub/Main/HermanHogg/relu.htm buy clomid] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/sifus.htm xenical online] [http://bugzilla.internet2.edu/attachment.cgi?id=759 order xanax] [http://www.hollins.edu/ubb/Forum32/HTML/000360.html free ringtones] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=43 wellbutrin online] [http://www.coe.unt.edu/chec/forum/forum_posts.asp?TID=15 carisoprodol online] [http://cyrusimap.web.cmu.edu/twiki/bin/view/Main/DikVolirev tracfone ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SherylDiu/popuxo.htm free sharp ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000291.html buy ativan] [http://ist.greenville.edu/drupal/files/covubi.html buy norco] [http://ccfl.unl.edu/twiki/pub/Main/PaulinePauline/wetule.htm free sony ericsson ringtones] [http://www.hollins.edu/ubb/Forum32/HTML/000362.html tracfone ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=49075 free sonyericsson ringtones] [http://dcc.syr.edu/dforum/message.asp?MessageID=48901 soma online] [http://www.hollins.edu/ubb/Forum32/HTML/000293.html meridia online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/JustinJonson/gelol.htm zyban online] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/rigyse.htm clonazepam] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/SelmaJeremy/kohe.htm free music ringtones] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/RobertSmith/pybex.htm cheap cyclobenzaprine] [http://wwwx.cs.unc.edu/~kmp/twiki40/pub/Main/AshleighRodriquez/pero.htm cheap ativan] [http://ccfl.unl.edu/twiki/pub/Main/AlexCarneyham/huvixu.htm paxil online] [http://grid.unimelb.edu.au/twiki/pub/Main/JackLawson/nunuso.htm cheap ativan] [http://dcc.syr.edu/dforum/message.asp?MessageID=49046 but nexium] [http://ccfl.unl.edu/twiki/pub/Main/MarthaBell/cohufyk.htm mp3 ringtones] [http://pathology.jhu.edu/N/n.web?EP=N
bd2753958c9bc647c8747ad0e86098ae894f762a
1655
1654
2007-05-03T12:42:38Z
Gagniere
3
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
1219895b371ec82ecf92f9fa76e7028bfefcde71
Alvinella
0
1311
1656
1546
2007-05-03T12:47:48Z
Dkieffer
2
wikitext
text/x-wiki
48053369391600495951863
9bd00dfacbc2e462ed5c3171df74bcfb86b1ebfd
1658
1656
2007-05-03T13:07:42Z
Gagniere
3
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Café des sciences
0
1322
1657
1561
2007-05-03T13:06:33Z
Gagniere
3
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gsceop_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
3b2f42ca93eaad78268bd8624318386877899f93
RetChip
0
1299
1660
1371
2007-05-05T22:06:46Z
Ripp
1
wikitext
text/x-wiki
Within the frame of the EVI-GENORET program we have designed and produced RETCHIP
an oligonucleotide microarray to study mouse retinal development and degeneration.
RETCHIP contains 1500 genes that are most relevant to retinal biology.
The selection is based on the following criteria:
# genes of interest for the participant,
# genes mutated in inherited retinal degeneration,
# genes hallmarks of relevant signalling pathways,
# genes showing variation in expression identified from
our Affymetrix experiment using the rd1 mouse.
RETCHIP is very inexpensive (15 euros/slide, 2000 slides have already been produced)
and will allow to do multiple experiments (time points, doses, ...)
that may viewed as preliminary to more expensive analysis using more costly methods.
This tool represents the possibility of working the experimental design carefully.
RETCHIP is running on the national microarray platform at Luxembourg (Evelyn Friederich).
This platform that is part of EVI-GENORET is also a facility where the hybridizations will be made.
The trainees will have the opportunity to perform their experiments on the platform.
Experiments performed using the chip should provide high level of standardization.
In addition we have validated and broadly distributed a standard operation procedure
to purify RNA from mouse retina using CsCl centrifugation (SOP within EVI-GENORET).
See the [http://www-genoret.u-strasbg.fr/genoret/RetChip RetChip web page]
63ceee96ae41c95b91769bae37c7238e9ae8dc31
1661
1660
2007-05-05T22:08:24Z
Ripp
1
wikitext
text/x-wiki
Within the frame of the EVI-GENORET program we have designed and produced RETCHIP
an oligonucleotide microarray to study mouse retinal development and degeneration.
RETCHIP contains 1500 genes that are most relevant to retinal biology.
The selection is based on the following criteria:
# genes of interest for the participant,
# genes mutated in inherited retinal degeneration,
# genes hallmarks of relevant signalling pathways,
# genes showing variation in expression identified from our Affymetrix experiment using the rd1 mouse.
RETCHIP is very inexpensive (15 euros/slide, 2000 slides have already been produced)
and will allow to do multiple experiments (time points, doses, ...)
that may viewed as preliminary to more expensive analysis using more costly methods.
This tool represents the possibility of working the experimental design carefully.
RETCHIP is running on the national microarray platform at Luxembourg (Laurent Vallard).
This platform that is part of EVI-GENORET is also a facility where the hybridizations will be made.
The trainees will have the opportunity to perform their experiments on the platform.
Experiments performed using the chip should provide high level of standardization.
In addition we have validated and broadly distributed a standard operation procedure
to purify RNA from mouse retina using CsCl centrifugation (SOP within EVI-GENORET).
See the [http://www-genoret.u-strasbg.fr/genoret/RetChip RetChip web page]
fee7fcdc89a84ccf6b9801cad1c472c648e47ba4
R
0
1320
1662
1541
2007-05-07T10:16:23Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
Mai 2007: La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5.<br>
L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
d9e2556571786d321902614b2c6580e25f543c57
1663
1662
2007-05-07T10:16:47Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (wr,
Mai 2007).<br>
L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
6c53957d0100cbfd03c9bdc59e98f309e69b58cf
1664
1663
2007-05-07T10:16:57Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de modules "BioConductor" et "CRAN".<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
20d5dc02b76e8bfe5b6bba0db9fc7bdf426b3e52
1665
1664
2007-05-07T11:17:40Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besion d'un module pas encore installé veuillez vous addresser à wraff <br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
d37c7aa6335a15f1f0c29799e32d05ed973036e3
1668
1665
2007-05-07T11:27:47Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à Wolfgang [http://alnitak.u-strasbg.fr/wikili/index.php/Wolfgang_Raffelsberger]<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
bd0057d01df2533a7fed483960feebe3c3b68b59
1669
1668
2007-05-07T14:22:51Z
Dkieffer
2
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
97a3a54a3dedb25bfb842fd0fc6779ce44fcffaf
Wolfgang Raffelsberger
0
1339
1666
2007-05-07T11:22:39Z
Wraff
5
New page: Bonjour, voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~wraff] Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]], du Départment de Biologi...
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
3f0d773dfbf55a8f67f0725d0a5b98774584bb71
1667
1666
2007-05-07T11:23:35Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
fe701cacd1e880c1a13ef294f49d1e6e9d8bf20d
Vi
0
1340
1677
2007-05-23T09:27:15Z
Dkieffer
2
New page: Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial. =lancement= vi [chemin du fichier] Au départ vous êtes en mode commande =le...
wikitext
text/x-wiki
Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial.
=lancement=
vi [chemin du fichier]
Au départ vous êtes en mode commande
=le mode commande=
C'est le mode principal pour gérer votre fichier texte
==les commandes de navigations==
* h déplace le curseur vers la gauche
* j déplace le curseur vers la bas
* k déplace le curseur vers la haut
* l déplace le curseur vers la droite
* b déplace le curseur au début du mot courant
* e déplace le curseur a la fin du mot courant
* w déplace le curseur au mot courant suivant
* ) déplace le curseur vers la phrase suivante
* ( déplace le curseur vers la phrase précédente
==les commandes de modifications==
* x supprime le texte sous le curseur
* X supprime le texte avant le curseur
* dw supprime le texte jusqu'à la fin du mot courant
* dd supprime la ligne courante
remarque: si on tape un chiffre avant ces commandes, la commande sera exécutée autant de fois. Exemple: 6x, supprimera 6 caractères.
==les commandes de gestions==
*Passage en mode insertion
** a place le curseur d'insertion après le curseur courant et passe en mode insertion
** i place le curseur d'insertion avant le curseur courant et passe en mode insertion
** A place le curseur d'insertion a la fin de la ligne courante et passe en mode insertion
** I place le curseur d'insertion en début de la ligne courante et passe en mode insertion
** o crée une ligne vide juste après la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion
** O crée une ligne vide juste avant la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion
* sauver et quitter
** :w enregistre
** :q quitte
** :x sauve et quitte
** :q! quitte sans sauver.
=le mode insertion=
C'est le mode pour taper votre texte. Appuyer sur la touche échappement pour repasser en mode commande.
81c4736bd1703fe490be0cc60a8406fe5f0b3473
1678
1677
2007-05-23T09:33:48Z
Dkieffer
2
/* les commandes de modifications */
wikitext
text/x-wiki
Vi est l'éditeur de texte par excélence des système UNIX. Certain ont aussi vim qui est plus convivial.
=lancement=
vi [chemin du fichier]
Au départ vous êtes en mode commande
=le mode commande=
C'est le mode principal pour gérer votre fichier texte
==les commandes de navigations==
* h déplace le curseur vers la gauche
* j déplace le curseur vers la bas
* k déplace le curseur vers la haut
* l déplace le curseur vers la droite
* b déplace le curseur au début du mot courant
* e déplace le curseur a la fin du mot courant
* w déplace le curseur au mot courant suivant
* ) déplace le curseur vers la phrase suivante
* ( déplace le curseur vers la phrase précédente
==les commandes de modifications==
* x supprime le texte sous le curseur
* X supprime le texte avant le curseur
* dw supprime le texte jusqu'à la fin du mot courant
* dd supprime la ligne courante
remarque: si on tape un chiffre avant ces commandes, la commande sera exécutée autant de fois. Exemple: 6x, supprimera 6 caractères.
* r (suivit d'une lettre) remplace le caractère sous le curseur courant par le lettre demandée.
* R (suivit de n lettres) + échappement, remplace par les n caractères depuis le curseur courant
==les commandes de gestions==
*Passage en mode insertion
** a place le curseur d'insertion après le curseur courant et passe en mode insertion
** i place le curseur d'insertion avant le curseur courant et passe en mode insertion
** A place le curseur d'insertion a la fin de la ligne courante et passe en mode insertion
** I place le curseur d'insertion en début de la ligne courante et passe en mode insertion
** o crée une ligne vide juste après la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion
** O crée une ligne vide juste avant la ligne courante, place le curseur d'insertion en début de cette nouvelle ligne et passe en mode insertion
* sauver et quitter
** :w enregistre
** :q quitte
** :x sauve et quitte
** :q! quitte sans sauver.
=le mode insertion=
C'est le mode pour taper votre texte. Appuyer sur la touche échappement pour repasser en mode commande.
541be61d8cfe42ab8563c071c58afc435af871b5
Unix
0
1312
1679
1676
2007-05-23T09:47:36Z
Dkieffer
2
/* Visualisation et traitement de fichiers */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
4a3960856acf33fb08b92320fb97e57fe3e215d8
JavOO
0
1331
1680
1675
2007-05-28T07:53:11Z
Berthomg
8
/* Usage */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application: [[Image:JavOO.png]]
#'''STOP button''': Stop the server, disconnecting all clients.
#'''START button''': Start the server, the server is ready to accept connections from clients.
#'''Server Log Area''': Some actions executed by the server are logged in this text area.
#'''Clear button''': This button clears the Server Log Area ('''3''').
#'''Save button''': This button will be used for further development.
#'''Config button''': This button display the configuration window. It will be soon described.
#'''Test Client button''': This button is used to test the server, the result output of the test will be shown in the Server Log Area ('''3''').
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
c437e731daa843edd0e3567127a1e0d37cd9eb5a
1683
1680
2007-05-29T15:56:43Z
Berthomg
8
/* Usage */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
d36da7444493faad25c32c2b704376d81d829ef0
1684
1683
2007-05-30T09:25:18Z
Berthomg
8
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed through the native
ODBC driver of Windows.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file and open the port 18000 (or 18001 for secure connection).
The computer in Strasbourg can now do SQL queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
b01305ff36464068036a0f722dd885e059c0e98f
1685
1684
2007-05-30T09:29:49Z
Berthomg
8
/* Introduction */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
83f8f24b7da12bb68315a970601bcc29dd80091f
1686
1685
2007-05-30T09:34:25Z
Berthomg
8
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
Then, you have to:
#Give a name for your resource.
#Declare the path to your file.
#Declare the name of the sheet and regions you want to export (if it is an Excel file).
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
75f2dc5cd5d0fee60e1a964de6a385aef080d870
1687
1686
2007-05-30T09:35:55Z
Berthomg
8
/* Installation */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
Then, you have to:
#Give a name for your resource.
#Declare the path to your file.
#Declare the name of the sheet and region you want to export (if it is an Excel file).
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific zone of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a zone of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
c1e4bc4f9d48dfc75b233bd415a28bc34125ea53
1688
1687
2007-05-30T09:36:50Z
Berthomg
8
/* Excel file */
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
Then, you have to:
#Give a name for your resource.
#Declare the path to your file.
#Declare the name of the sheet and region you want to export (if it is an Excel file).
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
fb5781a87ac4d67a850683b79dfdc3b6075334ca
1689
1688
2007-05-30T09:46:03Z
Berthomg
8
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share MSAccess and MSExcel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation and Configuration==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
Then, you have to:
#Give a name for your resource.
#Declare the path to your file.
#Declare the name of the sheet and region you want to export (if it is an Excel file).
==Configuration==
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
====How to create a selection in Excel====
#First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
===Access file===
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
==Usage==
Here is a screenshot of the JavOO application:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be soon described.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
ecf2f9fcded8f360f163c5d97622caa905de9bdb
1690
1689
2007-05-30T15:05:36Z
Berthomg
8
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share Microsoft Access and Excel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (and/or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation and Configuration==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
===Interface Description===
This is what you get when you launch JavOO:
[[Image:JavOO.png]]
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be described below.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
The first thing you have to do is declaring one or more resources (Excel and/or Access files), which is describe in the Configuration Section.
===Configuration Section===
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
For that, click on the <b>Config button (<span style="color:#F00;">6</span>)</b>, you get the <b>JavOO Server Configuration</b> window.
<!--
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
-->
====Excel File====
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
=====How to create a selection in Excel=====
#First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
====Access file====
<!--
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
-->
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
4b0d68b58ac57946dd8bf3d64a2908b5ef8e4993
1692
1690
2007-05-31T13:49:48Z
Berthomg
8
wikitext
text/x-wiki
JavOO : '''Jav'''a '''O'''dbc for '''O'''ffice.
==Introduction==
JavOO is a small multithread secure server written in [[Java]] and working on Windows platform.
It allows you to share Microsoft Access and Excel resources, which will be accessed by a distant client program through the native
ODBC driver of Windows. The client will be able to do SQL select queries on these resources.
For example:
a laboratory in Madrid has an PC running on Windows and wants to make accessible its Access database to a collaborator in Strasbourg.
For that, install JavOO on the PC in Madrid, configure the path and access rights to the Access file
and open the port 18000 (and/or 18001 for SSL secure connection).
The computer in Strasbourg can now do SQL select queries on the remote Access database in Madrid.
==Download==
The actual version is beta 1.0 .
<!--You can download the Windows installer-->
To get Windows installer of JavOO, please send an email to [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr Guillaume.Berthommier@igbmc.u-strasbg.fr ]
==Installation and Configuration==
Double-click on the file ''JavOOsetup.exe'' and follow the instructions.
By default the program will be installed in the directory ''C:\Program Files\JavOO\'' .
===Interface Description===
This is what you get when you launch JavOO:
<center>[[Image:JavOO.png]]</center>
; STOP button (<span style="color:#F00;">1</span>) : Stop the server, disconnecting all clients.
; START button (<span style="color:#F00;">2</span>) : Start the server, the server is ready to accept connections from clients.
; Server Log Area (<span style="color:#F00;">3</span>) : Some actions executed by the server are logged in this text area.
; Clear button (<span style="color:#F00;">4</span>) : This button clears the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Save button (<span style="color:#F00;">5</span>) : This button is not used at the moment. In further development you will be able to save the content of the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
; Config button (<span style="color:#F00;">6</span>) : This button display the configuration window. It will be described below.
; Test Client button (<span style="color:#F00;">7</span>) : This button is used to test the server, the result output of the test will be shown in the Server Log Area (<span style="color:#F00;font-weight:bold;">3</span>).
<!--
Here is the content of the installation directory:
*JavOO
**lib
***jaxen-1.1-beta-5.jar
***jdom.jar
***log4j-1.2.13.jar
***microba-0.4.4.jar
***swing-layout-1.0.jar
**client_keystore
**JavOO.ico
**JavOO.jar
**javoo.log: this is the application log, you can delete it if it takes too much space
**javooconfig.default.xml : the default config file, in case you messed up with ''javooconfig.xml'' : delete ''javooconfig.xml'', do a copy of ''javooconfig.default.xml'' and rename it to ''javooconfig.xml''.
**javooconfig.xml
**README.TXT
**server_keystore
**testAccess.mdb
**testExcel.xls
**unins000.dat
**unins000.exe
-->
The first thing you have to do is declaring one or more resources (Excel and/or Access files), which is describe in the Configuration Section.
===Configuration Section===
Now that you've installed JavOO, you need to add your Excel and/or Access resources.
For that, click on the <b>Config button (<span style="color:#F00;">6</span>)</b>, you get the <b>JavOO Server Configuration</b> window.
<center>[[Image:JavOOServerConfig.png]]</center>
; Resource list (<span style="color:#F00;">1</span>) : All defined resources are declared here. There are already three declared resources in JavOO that are here for testing purpose : see <b>Test Client button (<span style="color:#F00;">7</span>)</b> in the Interface Description section.
; Add New Excel (<span style="color:#F00;">2</span>) : Add a new empty Excel resource. Don't forget to enter a proper name for the resource (see further).
; Add New Access (<span style="color:#F00;">3</span>) : Add a new empty Access resource. Don't forget to enter a proper name for the resource (see further).
; Edit (<span style="color:#F00;">4</span>) : Allows you to edit an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button.
; Clone (<span style="color:#F00;">5</span>) : Allows you to clone an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button.
; Remove (<span style="color:#F00;">6</span>) : Allows you to remove an existing resource declared in the <b>Resource list (<span style="color:#F00;">1</span>)</b>. For that, select a resource in the list then press the button.
<!--
In the install directory you'll find a file named '''''javooconfig.xml'''''.
This file is in [[XML]] format. It defines a root element '''''serverconfig''''' in which an element '''''resources''''' is defined.
That is in this latest element where you will define your own resources.
Some example resources are already defined to show you how the resources should be declared in order to be accessible through the server.
You can edit this file with you favorite text editor.
===Excel file===
<excel_resource name="testExcel"
filepath="C:/path/to/the/file.xls"
sheet="sheet"
selection="selection"
user="username"
password="userpassword"
readonly="true" />
-->
====Excel File====
*Usually people do not define username and password for Excel files, so if your file doesn't have this kind of protection you can leave them blank.
*The declaration of an Excel resource is a bit specific, let's see:
**An Excel file has one or many sheets, each one has a specific name, depending on the localisation of your computer, ie "Feuil1" in french, "Sheet1" in english, "Tabelle1" in german, etc. These names can be edited. Because many sheets can be accessible, you will have to define the proper name in the '''''sheet''''' attribute of the Excel resource.
**Now the tricky part: the '''''selection''''' is a specific region of you sheet, containing the header line of the table and it's content. Here is an example of a selection:
{| border="1"
|-
! Name
! Age
! Gender
|-
| Bob || 30 || Male
|-
| Jane || 28 || Female
|-
| Cindy || 45 || Female
|}
The nice part here is that you can define one or many selections in the same sheet, but you will have to declare as many Excel resources as the number of selections you want to be accessible.
=====How to create a selection in Excel=====
#First select a region of your sheet containing the '''''header''''' and the '''''data''''' of your table.
#Then, in the menu, choose '''Insert''' -> '''Name''' -> '''Define'''.
#A new window should appear, enter the name you want for the selection, press '''OK''' then '''Close'''.
#Do not forget to save the file.
====Access file====
<!--
<access_resource name="testAccess"
filepath="C:/path/to/the/file.mdb"
user="username"
password="userpassword"
readonly="true" />
-->
==Troubleshooting==
If you any problem, please send me an email at [mailto:Guillaume.Berthommier@igbmc.u-strasbg.fr?subject=On%20JavaOO <Guillaume.Berthommier@igbmc.u-strasbg.fr> ] .
eb1e893bfb405e3f0c94db667bc058e6b1c0e041
Gscope Clonage
0
1318
1681
1555
2007-05-29T08:41:33Z
Ripp
1
wikitext
text/x-wiki
'''Gscope Clonage'''
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
* Pour cela il faut (l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond]) :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
... qui vous aide à définir les domaines de la protéines
===Commande d'oligos===
* Il suffit de créer un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
317a3c2614894a3c4256e5fd82185ea42310336f
1682
1681
2007-05-29T10:14:24Z
Ripp
1
wikitext
text/x-wiki
'''Gscope Clonage'''
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
(l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond])
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
(faite par Raymond avec Gscope)
Vous aidera à définir les domaines de la protéines
===Commande d'oligos===
(faite par Raymond avec Gscope)
* Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
1ac53e42da59310fbbe85a64287eabeea632dbb1
1701
1682
2007-07-07T09:55:36Z
Ripp
1
wikitext
text/x-wiki
'''Gscope Clonage'''
Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr]
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
(l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond])
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
(faite par Raymond avec Gscope)
Vous aidera à définir les domaines de la protéines
===Commande d'oligos===
(faite par Raymond avec Gscope)
* Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et miniscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
d5302778c82ec1e220b74abd5bc4a5db914b3ac6
1702
1701
2007-07-07T10:06:16Z
Ripp
1
wikitext
text/x-wiki
'''Gscope Clonage'''
Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr]
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
(l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond])
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
(faite par Raymond avec Gscope)
Vous aidera à définir les domaines de la protéines
===Commande d'oligos===
(faite par Raymond avec Gscope)
* Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et minuscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
8963dcb5318c7e941384bba9db7698bd1e77bb69
1703
1702
2007-07-07T10:07:06Z
Ripp
1
wikitext
text/x-wiki
Gscope Clonage est maintenant disponible (en lecture uniquement pour le moment) sur le web sur [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr]
'''Gscope Clonage'''
* est une application spécifique de [[Gscope]] qui permet de créer, étudier, stocker et gérer toutes les information sur la ou les protéines dont vous rêvez de faire la structure tridimensionnelle.
* fait toutes les analyses possibles de vos séquences
* dessine les oligos pour le clonage, commande les oligos; crée le produit PCR, fait les recombinaisons pDONR, pDEST et le café.
===Création de la séquence===
(l'envoyer à [mailto:Raymond.Ripp@igbmc.u-strasbg.fr Raymond])
* Pour cela il faut :
** la séquence complète en nucléotides de ATG jusqu'au stop (TAA, TGA, TAG) s'il est connu.
** un nom de gène (par ex. hsDRH4-A) contenant uniquement les caractères a-zA-Z0-9 et - Donc pas de blancs, de _, de +, d'apostrophes ni de parenthèses, etc.
** une définition du style "Homo sapiens DNA repair helicase variant 4 machin A DRH (EC 3.6.1.-)."
** si possible une référence de la protéine dans une base de données de séquences (Uniprot, RefSeq, GeneBank, PDB, etc.)
===Analyse de séquence===
(faite par Raymond avec Gscope)
Vous aidera à définir les domaines de la protéines
===Commande d'oligos===
(faite par Raymond avec Gscope)
* Il suffit de fournir un fichier contenant les lignes suivantes (c'est un exemple !)
AttB1_Thrombin_NdeI_hsDRH4-A-2-678_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-2-443_STOP_BamHI_AttB2
AttB1_Thrombin_NdeI_hsDRH4-A-58-443_STOP_BamHI_AttB2
* mais attention ...
** écrire les signaux correctement, avec majuscule et minuscules
** les _ séparent les signaux entre eux et avec la prot.
** le - de hsDRH4-A fait partie du nom de gène, les autres séparent les bornes des domaines.
gscope OligAuto fait tout le reste en automatique. Voir RAYMOND pour cela.
===Verification de séquence===
===Serait-ce un LIMS ?===
Et bien sûr Gscope garde tout ça en mémoire et vous l'affiche à la demande.
setgscope ProGS
gscope
A+ Raymond
f11794455ce8a7643469fa1f2dece2fc67d3e4e4
File:JavOOServerConfig.png
6
1341
1691
2007-05-31T12:12:40Z
Berthomg
8
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Main Page
0
1279
1693
1655
2007-06-22T14:59:32Z
Poidevin
11
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
3887075836996fffe047d800e964ad13a6aff1da
1695
1693
2007-06-27T13:55:32Z
Wraff
5
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un garphical uster interface pour des analyses statistiques automatiques et des raports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
6e33a6cc71e40a06b3b429fa2d43784d79579c70
1696
1695
2007-06-27T13:56:20Z
Wraff
5
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec raports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
43b7f6f6164a2541515b1b959790720a085cd142
1698
1696
2007-06-27T13:58:51Z
Wraff
5
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
57e9fdf7dc6c7417629e9e96e668dd4e2c6adbbc
1706
1698
2007-07-16T11:53:59Z
Dkieffer
2
/* Outils programmation et Unix */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
383ee54b6e24631e3eeb28f0b1b90afc4e2497c6
1719
1706
2007-07-27T14:56:27Z
Ripp
1
/* Projets */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9919263c880a8d64febad8642af31a2a180a0e2e
1726
1719
2007-07-30T11:26:49Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
eae22d6f5e4dee6c6511b7be4aa8d5677b37c150
GenoretGenes
0
1308
1694
1422
2007-06-22T15:01:43Z
Poidevin
11
wikitext
text/x-wiki
GenoretGenes est la base de données construite sur le projet [[Gscope]] EVImm
Il centralise les informations concernant les gènes de la rétine.
Cette base est maintenue par [[Laëtitia Poidevin]]
voir aussi le site WikiGenoret de [http://www-genoret.u-strasbg.fr/genoret/wiki/index.php/GenoretGenes GenoretGenes]
et le site web [http://www-bio3d-igbmc.u-strasbg.fr/GenoretGenes GenoretGenes]
dc40eacf7909db7d71aac06829faac5e4460566c
RReportGenerator
0
1342
1697
2007-06-27T13:57:37Z
Wraff
5
New page: Le RReportGenerator est dispônible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm]
wikitext
text/x-wiki
Le RReportGenerator est dispônible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm]
a51491392d44d77b47139482ea634da96720794a
1699
1697
2007-06-27T14:02:05Z
Wraff
5
wikitext
text/x-wiki
Le RReportGenerator est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm chez Wolfgang]
bc0205deeb9f0cf9a6920420763315a75261e731
1700
1699
2007-06-27T14:04:22Z
Wraff
5
wikitext
text/x-wiki
Le RReportGenerator est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm chez Wolfgang]
312e76ba2bb308ea29ba4bd275efe4fe07955e23
1712
1700
2007-07-27T07:59:23Z
Wraff
5
wikitext
text/x-wiki
La transcriptomique et les puces à cellules transfectées sont devenues des outils de routine dans la recherche contre le cancer. Dû aux grandes quantités de données générées par ces méthodes de criblage à haut débit le besoin en méthodes d’analyse automatique est grandissant. La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et Latex) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées.
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Le programme RReportGenerator avec tutorial et exemples en version Windows est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang]
a82fe39ec4b387ad4c91c0ba9dcf1e1244eeee42
1714
1712
2007-07-27T08:06:11Z
Wraff
5
wikitext
text/x-wiki
La transcriptomique et les puces à cellules transfectées sont devenues des outils de routine dans la recherche contre le cancer. Dû aux grandes quantités de données générées par ces méthodes de criblage à haut débit le besoin en méthodes d’analyse automatique est grandissant. La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et Latex) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées.
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang]
f2c57bd194f180b072203090e5c0a92b55483abd
Java
0
1293
1705
1601
2007-07-16T08:12:12Z
Dkieffer
2
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
21abd3cfea52d812be3bc8b66e76059bb6085e01
1708
1705
2007-07-16T12:20:40Z
Dkieffer
2
/* Documentation */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Lancement et synchronisation de programmes externes en multiThread à partir de java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunner.htm ProgRunner]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/ProgRunnerDoc la Javadoc]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/TestProgRunner.htm Petit test]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/sourceJava/Clustalw.htm Exemple pour faire des clustalw]
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
100349bd2bca8b4fa3f2ba3737d59cee7223805a
Bibliothèque interne
0
1343
1707
2007-07-16T12:15:53Z
Dkieffer
2
New page: Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité. =PHP= ==PHP 5 avancé== *Editeur : Eyrolles; *Édition : 3e édition (2 Oct 2006) ...
wikitext
text/x-wiki
Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité.
=PHP=
==PHP 5 avancé==
*Editeur : Eyrolles;
*Édition : 3e édition (2 Oct 2006)
*Langue : Français
*ISBN: 2212120044
=javascript=
==Javascript: The Definitive Guide==
*Autheur: David Flanagan
*Editeur : O'Reilly Media;
*Édition : 4th (12 Fév 2006)
*Collection : Classique Us
*Langue : Français
*ISBN: 0596000480
=java=
==The Definitive Guide To Java Swing==
*Autheur: de John Zukowski
*Editeur : Apress;
*Édition : 3rd (Jui 2005)
*Langue : Anglais
*ISBN: 1590594479
==JSP Professionnel==
*Editeur : Eyrolles (7 Fév 2001)
*Collection : Wrox, solutions développeurs
*Langue : Français
*ISBN: 2212092474
==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...==
*Editeur : Eyrolles (28 avril 2006)
*Langue : Français
*ISBN: 2212117108
==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE==
*Autheurs: Anthony Patricio, Olivier Salvatori
*Editeur : Eyrolles (16 Jui 2005)
*Langue : Français
*ISBN: 2212116446
=R=
==Bioinformatics And Computational Biology Solutions Using R And Bioconductor==
*auteurs : Robert Gentleman (Sous la direction de), Wolfgang Huber (Sous la direction de), Sandrine Dudoit (Sous la direction de)
*Editeur : Springer (Août 2005)
*Langue : Anglais
*ISBN: 0387251464
=POO=
==Conception et Programmation orientées objet==
*Autheurs: Bertrand Meyer
*Editeur : Eyrolles (22 Juil 2000)
*Langue : Français
*ISBN: 2212091117
==UML et les Design Patterns==
*Autheur: Craig Larman
*Editeur : CampusPress (22 Fév 2002)
*Collection : Campus Press
*Langue : Français
*ISBN: 2744013013
=Database=
==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases==
*Editeur : Sams;
*Édition : 2nd (1 Août 2005)
*Langue : Anglais
*ISBN: 0672327562
81b177f78440238b3239299a8d56ebecb7391aeb
1710
1707
2007-07-16T12:23:14Z
Dkieffer
2
/* Bioinformatics And Computational Biology Solutions Using R And Bioconductor */
wikitext
text/x-wiki
Liste des livres disponibles pour le LBGI. Adressez vous à Laetitia Gonzalez pour leur disponibilité.
=PHP=
==PHP 5 avancé==
*Editeur : Eyrolles;
*Édition : 3e édition (2 Oct 2006)
*Langue : Français
*ISBN: 2212120044
=javascript=
==Javascript: The Definitive Guide==
*Autheur: David Flanagan
*Editeur : O'Reilly Media;
*Édition : 4th (12 Fév 2006)
*Collection : Classique Us
*Langue : Français
*ISBN: 0596000480
=java=
==The Definitive Guide To Java Swing==
*Autheur: de John Zukowski
*Editeur : Apress;
*Édition : 3rd (Jui 2005)
*Langue : Anglais
*ISBN: 1590594479
==JSP Professionnel==
*Editeur : Eyrolles (7 Fév 2001)
*Collection : Wrox, solutions développeurs
*Langue : Français
*ISBN: 2212092474
==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...==
*Editeur : Eyrolles (28 avril 2006)
*Langue : Français
*ISBN: 2212117108
==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE==
*Autheurs: Anthony Patricio, Olivier Salvatori
*Editeur : Eyrolles (16 Jui 2005)
*Langue : Français
*ISBN: 2212116446
=R=
==Bioinformatics And Computational Biology Solutions Using R And Bioconductor==
*auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit
*Editeur : Springer (Août 2005)
*Langue : Anglais
*ISBN: 0387251464
=POO=
==Conception et Programmation orientées objet==
*Autheurs: Bertrand Meyer
*Editeur : Eyrolles (22 Juil 2000)
*Langue : Français
*ISBN: 2212091117
==UML et les Design Patterns==
*Autheur: Craig Larman
*Editeur : CampusPress (22 Fév 2002)
*Collection : Campus Press
*Langue : Français
*ISBN: 2744013013
=Database=
==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases==
*Editeur : Sams;
*Édition : 2nd (1 Août 2005)
*Langue : Anglais
*ISBN: 0672327562
ee3cfbbba4c41412526456b7110337759b30fe35
1711
1710
2007-07-16T12:45:47Z
Dkieffer
2
wikitext
text/x-wiki
Liste des livres disponibles pour le [[LBGI]]. Adressez vous à Laetitia Gonzalez pour leur disponibilité.
=PHP=
==PHP 5 avancé==
*Editeur : Eyrolles;
*Édition : 3e édition (2 Oct 2006)
*Langue : Français
*ISBN: 2212120044
=javascript=
==Javascript: The Definitive Guide==
*Autheur: David Flanagan
*Editeur : O'Reilly Media;
*Édition : 4th (12 Fév 2006)
*Collection : Classique Us
*Langue : Français
*ISBN: 0596000480
=java=
==The Definitive Guide To Java Swing==
*Autheur: de John Zukowski
*Editeur : Apress;
*Édition : 3rd (Jui 2005)
*Langue : Anglais
*ISBN: 1590594479
==JSP Professionnel==
*Editeur : Eyrolles (7 Fév 2001)
*Collection : Wrox, solutions développeurs
*Langue : Français
*ISBN: 2212092474
==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...==
*Editeur : Eyrolles (28 avril 2006)
*Langue : Français
*ISBN: 2212117108
==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE==
*Autheurs: Anthony Patricio, Olivier Salvatori
*Editeur : Eyrolles (16 Jui 2005)
*Langue : Français
*ISBN: 2212116446
=R=
==Bioinformatics And Computational Biology Solutions Using R And Bioconductor==
*auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit
*Editeur : Springer (Août 2005)
*Langue : Anglais
*ISBN: 0387251464
=POO=
==Conception et Programmation orientées objet==
*Autheurs: Bertrand Meyer
*Editeur : Eyrolles (22 Juil 2000)
*Langue : Français
*ISBN: 2212091117
==UML et les Design Patterns==
*Autheur: Craig Larman
*Editeur : CampusPress (22 Fév 2002)
*Collection : Campus Press
*Langue : Français
*ISBN: 2744013013
=Database=
==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases==
*Editeur : Sams;
*Édition : 2nd (1 Août 2005)
*Langue : Anglais
*ISBN: 0672327562
642184a598bd9544117a59fb6c75e5e97b9f76af
R
0
1320
1709
1669
2007-07-16T12:22:38Z
Dkieffer
2
/* Documentation et Tutorials */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida]] et [[Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
a5f7d58d1b8b8a155ff5941ad5194caaf97cc058
Wolfgang Raffelsberger
0
1339
1713
1667
2007-07-27T08:03:20Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]].
e-mail : wolfgang.raffelsberger@igbmc.u-strasbg.fr
63a87c55ece103d21370c87c2994607143bf9cbf
1715
1713
2007-07-27T08:19:21Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]].
e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr]
2e99d0f0c2bebd552bc47b47dee8a066ea9e25b1
RetinoBase
0
1344
1716
2007-07-27T14:47:14Z
Ripp
1
New page: RETINOBASE is a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. Retinobase uses open-source tools...
wikitext
text/x-wiki
RETINOBASE is a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms. Retinobase uses open-source tools. The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
DATASETS IN RETINOBASE
Retinobase stores the expression profiles of genes from a microarray experiment. The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans. Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to Retinobase using SQL scripts via pgAdminIII.
DATA PRE-PROCESSING
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
bedc29fc61e1985901d9cd541063c2dbb869c0c3
1717
1716
2007-07-27T14:53:21Z
Ripp
1
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==DATASETS IN RETINOBASE==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to Retinobase using SQL scripts via pgAdminIII.
==DATA PRE-PROCESSING==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
45b3ec906a8cbca3f7b8c0903693313aca97d0bd
1718
1717
2007-07-27T14:55:17Z
Ripp
1
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
88d06a6c0a36d8eb9ac865989258ab179ca9dcbd
1720
1718
2007-07-27T15:03:01Z
Ravi
12
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==User Manual==
* User manual .doc file
* RetinoBase Website
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
ffb02fa7d99bedc8fa127f233937410b3f325b71
1721
1720
2007-07-27T15:03:50Z
Ravi
12
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==User Manual==
* User manual .doc file
* [[RetinoBase Website]]
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
06ad88e40054745f03d8d9934119f2e89205f2a4
1728
1721
2007-07-30T16:41:30Z
Ripp
1
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==RetinoBase can be accessed through a Fed instance==
[[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==User Manual==
* User manual .doc file
* [[RetinoBase Website]]
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
5dbc08a744f6fd6f8f47ab63eddcdb93ff99cde3
RetinoBase Website
0
1345
1722
2007-07-27T15:04:55Z
Ravi
12
New page: This explains how to use the RetinoBase Website ==What is available==
wikitext
text/x-wiki
This explains how to use the RetinoBase Website
==What is available==
b00f2e7eb51676600da2921b50728dc0a0210631
1723
1722
2007-07-27T15:07:44Z
Ravi
12
wikitext
text/x-wiki
This explains how to use the RetinoBase Website
==What is available==
PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information
EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles
SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id
QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option
Mail to Raymond Ripp
25244b73eb8d3de6891de11cbe51b5459db7a5db
1724
1723
2007-07-27T15:08:18Z
Ravi
12
wikitext
text/x-wiki
This explains how to use the RetinoBase Website
==What is available==
PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information
EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles
SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id
QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option
64fe7d620b6a0cef13c0fcaf788c6c0ad2493efa
1725
1724
2007-07-27T15:09:09Z
Ravi
12
wikitext
text/x-wiki
This explains how to use the [[RetinoBase]] Website
==What is available==
PROBESET : This link provides the user with gene details. click on probeset takes user to new page where the user can enter either one Genename, Genesymbol, Affymetrix probeset ID or multiple Genenames, Genesymbols or Affymetrix probeset id separated by space inorder to get the Gene information
EXPERIMENT: This link provides the user with all the experiment details that are present in the RETINOBASE. Further a link is provided to pubmed to those experiments whose data is derived from published articles
SAMPLE: This link provides the user with all the sample details that are present in the RETINOBASE. If the user prefers to findout all the samples present in particular experment he click on Sample Query option and then enter the experiment id
QUERY: This link provides the user to access the data present in the RETINOBASE. The user can either query data using Data Query, Ratio Query, Cluster Query and Ortholog Query option
4bd55905dcb82fcc7534a149c02ab7defae71ffe
Architecture of Gscope
0
1328
1727
1560
2007-07-30T11:29:09Z
Ripp
1
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
58ae92f47720be3766085e4e053a9c378e5eb216
Fed
0
1286
1729
1614
2007-07-30T16:46:24Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]]
* [[GenoretGenes]] (very soon)
* [[LBGI]] (the BioInformatic group) (very soon)
1644ed33f571b6d884153db6aabf480bb0919971
Fed
0
1286
1730
1729
2007-07-30T16:48:13Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PostgreSQL Relational Database
* a PHP base website using Html and Javascript
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[LBGI]] (the BioInformatic group) (very soon)
1a0c042ba3e1551172a6a9263ca6c62b02da6523
1731
1730
2007-07-30T16:56:36Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery.
This data are then processed to be integration in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[LBGI]] (the BioInformatic group) (very soon)
f1a364827c8446c08a10fa154bbb0020e71e683a
1732
1731
2007-07-30T17:02:12Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[LBGI]] (the BioInformatic group) (very soon)
3be992e0abe44b4f79c986a4fdbac8eed1d27241
FedLord
0
1332
1733
1591
2007-07-30T17:20:11Z
Ripp
1
wikitext
text/x-wiki
FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases.
If all people are centralised in this database it will be possible to share the access rights within several Fed servers.
==Actuellement==
Quand on aaura tout réécrit il y aura un vrai FedLord ... qui gère touts.
Actuellement c'est Genoret Database qui joue le rôrl de FedLord ...
Le "petit" détail qui reste à règler est de pouvoir mettre les pk_people en int4 et non pas serial. Cela nous oblige à prévoir plein de people pour pouvoir les intégrer d'une base à l'autre avec le même pk. Guillaume n'y croit pas mais ça va marcher... Peut être qu'en créant ddirectement les people en int4 dans les nouveaux projets.
95fd459e798caf47cb41ce73f4393a74fb657cf2
Unix
0
1312
1734
1679
2007-08-01T12:47:53Z
Dkieffer
2
/* commandes relatifs à l'environnement multi-utilisateurs */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|wich nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|id
|Donne des informations sur l'identité de l'utilisateur courant.
|-
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
03049bd63611526489443731ea4155d1c4a2547c
1735
1734
2007-08-02T08:11:24Z
Dkieffer
2
/* Manipulation des fichiers et des répertoires */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|which nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst dont le contenu est nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|id
|Donne des informations sur l'identité de l'utilisateur courant.
|-
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
4dae1ee915e3802dd94658589d407f69a2d5bd11
Java
0
1293
1736
1708
2007-08-03T12:14:37Z
Dkieffer
2
/* sources internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.4.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
2e25820402a32c60d183b8d3e63f16977463d273
1737
1736
2007-08-03T12:20:05Z
Dkieffer
2
/* Librairies internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[alnitak]] et [[kilida]]
Installé sur [[star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
e10e3653800348a6d53acad8beb7f0408ffed2b5
1741
1737
2007-08-10T08:58:44Z
Dkieffer
2
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[Kilida et Alnitak]]
Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.0.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
3d0fcfb39641121e26583ec862a5c95d441f713e
1747
1741
2007-08-22T09:23:55Z
Dkieffer
2
/* Librairies internes */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[Kilida et Alnitak]]
Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
f8a57df7529bbd477789fbdd0780c4b1b606a0b4
1748
1747
2007-09-13T08:04:43Z
Dkieffer
2
/* Librairies */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.5 sur [[Kilida et Alnitak]]
Installé sur [[Star | star6]] en version 1.5 dans /usr/java/jre1.5.0_06/bin/java pour le jre et /usr/java/jdk1.5.0_06/bin/java pour le jdk.
Mais malheureusement pas encore sur les autres Star...
A noter que pour être indépendant de la machine, qu'une version de java linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java pour star.
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
499e690fce0952025c8c811e8f9a47520cca7d43
Main Page
0
1279
1738
1726
2007-08-10T08:38:24Z
Dkieffer
2
/* Serveur et données */
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
64e6010f161b7cd74ee631ae5245e2dab6356518
1744
1738
2007-08-20T15:38:24Z
Berthomg
8
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
bf178b92face795c814da5b410cee543e7247729
1764
1744
2007-09-13T12:01:48Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI |(Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
f683de8b5485c6b2444d9e81b6855a275498d723
1765
1764
2007-09-13T12:02:08Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
6c19fb04769468710db0eeff3721b87588de2973
1766
1765
2007-09-13T12:03:30Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[Macsims]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
77bb18c3d7f254c567ea1b79f3242ec9d14947fb
1778
1766
2007-09-13T12:12:16Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
5ad2c65e39fbf9136174f3bb25f36d08f84a7133
1781
1778
2007-09-13T12:16:24Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[Magos]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
b6993113d77858e8c961f9cd88613b000039e0a8
Star
0
1346
1739
2007-08-10T08:50:32Z
Dkieffer
2
New page: Les Stars sont nos machines de calcul. Star 3,7 et 8 sont sur Fedora 7 Star 5 sur Fedora 5 Star 4 et 6 sur Red hat 4 les dossiers /usr/local et /home sont communs à toutes les machin...
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Star 3,7 et 8 sont sur Fedora 7
Star 5 sur Fedora 5
Star 4 et 6 sur Red hat 4
les dossiers /usr/local et /home sont communs à toutes les machines.
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
d23f2fc6dbd93441cc943ffecd3028e83e6ab2b8
R
0
1320
1740
1709
2007-08-10T08:54:09Z
Dkieffer
2
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.0 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Mai 2007).<br>
L’installation est accompagné d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger]].<br>
Pour lancer R sur [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
3b40ea879f54b3839dbaeb0d83b15d03a7f60ae7
1758
1740
2007-09-13T10:17:11Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >100 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs en Fedora comme [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
301b69c91db0d9d4d1f3923f6f9ae895a4818377
1759
1758
2007-09-13T10:51:28Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé sur star5 (WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ]
*[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
ec9a782f91ef2f85447e9a855dcecc22125174ca
1763
1759
2007-09-13T11:32:48Z
Dkieffer
2
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 (WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] <br>
En tapant: /usr/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies utiles=
*[[rjava]] pour appeller du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ]
*[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
8f14e662e532e05adaf688b87d3e04b37a8bd34b
1769
1763
2007-09-13T12:06:11Z
Dkieffer
2
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies utiles=
*[[rjava]] pour appeller du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ]
*[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
c08f2316c9debf788054b7c0845d40ffdf619339
1777
1769
2007-09-13T12:11:38Z
Dkieffer
2
/* Librairies utiles */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies utiles=
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://alnitak.u-strasbg.fr/wikili/index.php/JRI JRI (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki ]
*[http://alnitak.u-strasbg.fr/wikili/index.php/RReportGenerator RReportGenerator : un GUI pour des applications de routine utilisant R (sur ce Wiki)]
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
a17f811d2cb0039c4e52f8182334aa62916a4b54
RReportGenerator
0
1342
1742
1714
2007-08-10T09:24:10Z
Wraff
5
wikitext
text/x-wiki
La [http://www.r-project.org plate-forme statistique R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées.
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang]
989aee6a08d87122955d99671c5dbd66e9cf7c7b
1760
1742
2007-09-13T10:54:17Z
Wraff
5
wikitext
text/x-wiki
La [http://www.r-project.org plate-forme statistique R] (voir aussi [http://alnitak.u-strasbg.fr/wikili/index.php/R R chez LBGI]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RReportGenerator.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées.
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Le programme RReportGenerator (en version Windows) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang]
d18711e88177be17b789601dbd6fa8ee2cf87da8
RetinoBase
0
1344
1743
1728
2007-08-18T12:37:08Z
Ripp
1
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:ravi@igbmc.u-strasbg.fr RaviKiran Reddy]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==RetinoBase can be accessed through a Fed instance==
[[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==User Manual==
* User manual .doc file
* [[RetinoBase Website]]
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
==External Links==
* [http://www-genoret.u-strasbg.fr/genoret Genoret Database]
* [http://www-genoret.u-strasbg.fr/GenoretGenes GenoretGenes]
99803b3619b6aa091b16e32566d02ca8bfa8fb59
Installation PHP
0
1347
1745
2007-08-20T15:48:35Z
Berthomg
8
New page: # Installation PDO pour PHP sur Ubuntu ## installation php5-dev ## installation postgresql-server-dev-8.1 ## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or whereve...
wikitext
text/x-wiki
# Installation PDO pour PHP sur Ubuntu
## installation php5-dev
## installation postgresql-server-dev-8.1
## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function:
if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then
AC_MSG_ERROR([
You've configured extension $1, which depends on extension $2,
but you've either not enabled $2, or have disabled it.
])
fi
## commande: pecl install pdo_pgsql
## dans php.ini de cli et apache2: extension=pdo.so et extension=pdo_pgsql.so
f9baa4314f0db0fdd223a2e051a05c72ee101753
1746
1745
2007-08-21T07:11:56Z
Berthomg
8
wikitext
text/x-wiki
# Installation PDO for PHP5 on Ubuntu
## installation php5-dev
## installation postgresql-server-dev-8.1
## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function:
<pre>
if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then
AC_MSG_ERROR([
You've configured extension $1, which depends on extension $2,
but you've either not enabled $2, or have disabled it.
])
fi
</pre>
## command: pecl install pdo_pgsql
## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so
7544e5214020d341b024bba479227913cec6eebe
LBGI
0
1280
1749
1635
2007-09-13T08:42:42Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Petit GrandChef [http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory : i) a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases; ii) a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies. In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service.
# The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
===Projects===
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
9d1b352348a7605404285504c7ecf2db9b94636d
1750
1749
2007-09-13T08:44:12Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service.
# The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
===Projects===
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
f01dcbb3146c64361ccefb804ff196de9f2e2f31
1751
1750
2007-09-13T08:45:57Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the PipeAlign cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology (MAO) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System (MACSIMS), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation (vALId), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling (MAGOS) and promoter analysis (PromAn). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, BAliBASE3, which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The BIRD (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRDQL Engine Query via HTTP service.
# The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
cc893b3aa520bf180c1481f7234d15d03d49a302
1752
1751
2007-09-13T08:48:18Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the BIRD-QL Engine Query via HTTP service.
# The Retinobase is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-Genoret database is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences (ICDS) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
8f7bb31f31ea70bd88e8414a782ba3f094966434
1753
1752
2007-09-13T08:50:16Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments (DbW), sequence annotation (GOAnno), comparative genomics (ARPAnno), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
2d669e5416d4fa0d951ba902527b65f052641000
1754
1753
2007-09-13T08:53:52Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
610b62b0a4c58c5adb7225eb53d76ad6dee99551
1770
1754
2007-09-13T12:08:32Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[Magos|MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
39958867c51cc5710f3bae200010e91931765279
JRI
0
1348
1755
2007-09-13T09:21:47Z
Dkieffer
2
New page: Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R. =Installation= Pour pouvoir installer JRI, vous devez avoir correctement installé et con...
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
private static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
d910e9bf4bbaadb27e7b54907d27b2b1fb8d4d7a
1756
1755
2007-09-13T09:30:06Z
Dkieffer
2
/* Exemples */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R to 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaireAlaCon",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaireAlaCon,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
2f8eb324b9d3014026122cc189c45a4b6e76035b
1757
1756
2007-09-13T09:38:47Z
Dkieffer
2
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R to 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaireAlaCon",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaireAlaCon,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
f215b4d9cbf0942ae3f35753678651f5d464e147
1761
1757
2007-09-13T11:15:25Z
Dkieffer
2
/* Passer une matrice à R depuis Java */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R to 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
06ded3aacde6ba911df780e658d0eae003fa41f2
1762
1761
2007-09-13T11:22:09Z
Dkieffer
2
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R to 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rjava]]
820c66d5265448e34ee34363737e4f6d75df9d5d
1776
1762
2007-09-13T12:11:11Z
Dkieffer
2
/* Voir aussi */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R to 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
45ea845d4a2a1464f69e7f72116907a31bb7f236
RJava
0
1349
1767
2007-09-13T12:04:03Z
Dkieffer
2
New page: Rjava est une librairie R pour communiquer avec des objets Java Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R)
wikitext
text/x-wiki
Rjava est une librairie R pour communiquer avec des objets Java
Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R)
13f2f3251b9fe3ec897120f7cba4658fd7f35e66
1771
1767
2007-09-13T12:09:13Z
Dkieffer
2
wikitext
text/x-wiki
Rjava est une librairie R pour communiquer avec des objets Java
Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R)
=liens=
[http://www.rforge.net/rJava/ site officiel]
[http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava]
=Voir Aussi=
*[[JRI]]
*[[R]]
*[[java]]
a90cb53721a0f6d3d50cfec6341a35d835d3b638
1772
1771
2007-09-13T12:10:23Z
Dkieffer
2
[[Rjava]] moved to [[RJava]]: Erreur syntaxique
wikitext
text/x-wiki
Rjava est une librairie R pour communiquer avec des objets Java
Elle est installé sur alnitak dans la version 2.5 de R (/usr/local/bin/R)
=liens=
[http://www.rforge.net/rJava/ site officiel]
[http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava]
=Voir Aussi=
*[[JRI]]
*[[R]]
*[[java]]
a90cb53721a0f6d3d50cfec6341a35d835d3b638
Rjava
0
1350
1773
2007-09-13T12:10:23Z
Dkieffer
2
[[Rjava]] moved to [[RJava]]: Erreur syntaxique
wikitext
text/x-wiki
#REDIRECT [[RJava]]
1c82d40860631370d23862859905f33d3b3d9c25
MACSIMS
0
1351
1775
2007-09-13T12:11:04Z
Ripp
1
New page: '''MACSIMS''' '''M'''ultiple '''A'''lignment of '''C'''omplete '''S'''equences '''I'''nformation '''M'''anagment '''S'''ystem MACSIMS is a new program for the integration of structural an...
wikitext
text/x-wiki
'''MACSIMS''' '''M'''ultiple '''A'''lignment of '''C'''omplete '''S'''equences '''I'''nformation '''M'''anagment '''S'''ystem
MACSIMS is a new program for the integration of structural and functional information in the context of a multiple alignment of a protein family.
===Output File===
The XML output is based on this [http://www-bio3d-igbmc.u-strasbg.fr/Spine/public/xml/macsim.dtd dtd].
f7385fe924e95768782ebeff01d182577215b65e
Logiciels
0
1319
1779
1535
2007-09-13T12:12:50Z
Ripp
1
wikitext
text/x-wiki
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]]
*[[Bird]]
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
8aaf5b094aa590efaeef60043f6a5be667e8f2df
MAGOS
0
1352
1782
2007-09-13T12:17:55Z
Ripp
1
New page: MAGOS is a web server allowing automated protein modelling coupled to the creation of a hierarchical and annotated Multiple Alignment of Complete Sequences (MACS). MAGOS is designed for an...
wikitext
text/x-wiki
MAGOS is a web server allowing automated protein modelling coupled to the creation of a hierarchical and annotated Multiple Alignment of Complete Sequences (MACS). MAGOS is designed for an interactive approach of structural information within the framework of the evolutionary relevance of mined and predicted sequence information.
7ce9266f8ba7fc5dce3f6aa5d91c48cd1b940212
LBGI
0
1280
1783
1770
2007-09-13T12:19:09Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves i) the development of a novel portable method for Affymetrix data-filtering using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization, ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents, iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed RReportGenerator. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful R platform, via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
610b62b0a4c58c5adb7225eb53d76ad6dee99551
1792
1783
2007-09-21T15:41:56Z
Wraff
5
/* Bioinformatics : development of software and databases */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([http://www.meb.ki.se/~yudpaw/ Flush], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
605e29b97d712fc80e2a77a1449230c1381d46f1
1815
1792
2007-09-27T17:03:32Z
Wraff
5
/* Bioinformatics : development of software and databases */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
4e51f60ad39319d8d5a98dd725448ea2f1f0f561
Main Page
0
1279
1784
1781
2007-09-13T13:27:13Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Bird]] ... Hoan est disponible !
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
bdc7c507788785bc3cfb4570e79f3398a8624d4b
1785
1784
2007-09-13T13:45:01Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
58243200aee203ed4556e257f0990ac6a2483584
1802
1785
2007-09-27T10:57:22Z
Wraff
5
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[cluspack]]
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
b631e4a051f460f06ac4dfe89e05929f89a99947
1807
1802
2007-09-27T14:53:12Z
Wraff
5
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Projets==
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
58243200aee203ed4556e257f0990ac6a2483584
Logiciels
0
1319
1786
1779
2007-09-13T13:47:16Z
Ripp
1
wikitext
text/x-wiki
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
becc8bb7c6e46addf729a4b6dd5a774256fba386
1805
1786
2007-09-27T11:37:01Z
Wraff
5
wikitext
text/x-wiki
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
*[[cluspack]] clustering tools
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
595a4ef7cd9d52d0c28c4c9d7fe16e8f01a51883
BIRD
0
1313
1787
1457
2007-09-13T13:50:21Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
==Gscope utilise BIRD==
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
3568b4b199ef89471f2e5546ad7db3b6504a0e8b
1830
1787
2007-10-12T06:22:58Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}}
proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}}
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète'''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
778ec2c190db8c14005afe6e7499c8249edc0fbb
1831
1830
2007-10-12T06:23:47Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}}
proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}}
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète'''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
60d43e5c3dd142ba02905a3dc9301128408e2331
1832
1831
2007-10-12T06:24:12Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}}
proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}}
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète
La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète'''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
90a8065cb975187003c187997cc101bf68db9919
Oue
0
1315
1788
1469
2007-09-14T08:31:11Z
Ripp
1
wikitext
text/x-wiki
'''oue''' la commande magique sous Unix qui dit '''où e'''st dans [[Gscope]] les mots qui suivent.
* '''oue''' blastppourtous
* '''oue''' latotale
* '''oue''' dom parse
* '''oue''' proc machin
en fait les mots qui suivent '''oue''' sont concaténés avec un blanc entre.
* '''oue blast | gr proc''' récupère toutes les proc commençant par blast
8eb949d16b4cc7f2a4edd8f128d3a3835261e95c
JRI
0
1348
1789
1776
2007-09-17T13:37:09Z
Dkieffer
2
/* Passer une matrice à R depuis Java */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive selon votre version de R.
*[http://rosuda.org/JRI/JRI_0.2-4.tar.gz R_2.2]
*[http://rosuda.org/R/nightly/other/JRI_0.3-6.tar.gz R_2.3]
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz R_2.4 ou supérieur]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
80a93d228d594398cf42d4b3f24f3b793731092d
1793
1789
2007-09-24T12:06:14Z
Dkieffer
2
/* Installation */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R.
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
bb95d39cc8655ef981f5bb3e17589b8cdd6dd8d1
1795
1793
2007-09-25T09:09:11Z
Dkieffer
2
/* Installation */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
af2ae9630e4c56e47d2cff7260619a39790742ec
1796
1795
2007-09-25T09:10:48Z
Dkieffer
2
/* Les variables d'environnements */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de votre class ou jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
a5c1e0127f14525568f9b1d07946ed378ff29f56
1797
1796
2007-09-25T09:11:25Z
Dkieffer
2
/* Les variables java */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
9183096962bfcdd66389a24a03a61f9a9080e0aa
1798
1797
2007-09-25T09:21:16Z
Dkieffer
2
/* Exemples */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=usr/lib/R/lib:/usr/lib/R/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
13fdd42ba6a3378d17ba3ee3f484bafc2cd06cb3
1800
1798
2007-09-26T12:34:06Z
Dkieffer
2
/* liens */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=usr/lib/R/lib:/usr/lib/R/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
3f088f50b2cfdc590503184c24a2055ecd2e3d1d
1801
1800
2007-09-27T07:31:37Z
Dkieffer
2
/* Script de démarage de mon programme Java */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
0c4d9e8d7da1ac48260abc45c6900bf88db457b9
RReportGenerator
0
1342
1790
1760
2007-09-21T15:21:50Z
Wraff
5
wikitext
text/x-wiki
La [http://www.r-project.org plate-forme statistique R] (voir aussi [[R]] chez LBGI]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RRG.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.). Des exemples montrent des taches d’analyse automatique et de contrôle qualité provenant de la transcriptomique et des puces à cellules transfectées.
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Le programme RReportGenerator (en version Windows et Linux) avec tutorial et exemples est disponible [http://www-bio3d-igbmc.u-strasbg.fr/~wraff chez Wolfgang]
492909f1d4db2a5b3c825eb1c1209ed16be9c0ce
R
0
1320
1791
1777
2007-09-21T15:25:30Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies utiles=
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
66220dbf280c48dee56a1f9367e8823b8145c7ce
1809
1791
2007-09-27T15:12:13Z
Wraff
5
/* Librairies utiles */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
==Librairies développés en collaboration avec le LBGI==
[Flush]
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
80230340c3f2c70fa83e8d3ddc69b5a34e567030
1810
1809
2007-09-27T15:13:08Z
Wraff
5
/* Librairies développés en collaboration avec le LBGI */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
==Librairies développés en collaboration avec le LBGI==
[[Flush]]
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
6da483b6ae4948a96c3cca934f984903a25587f0
1813
1810
2007-09-27T17:01:32Z
Wraff
5
/* Librairies développés en collaboration avec le LBGI */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
==Librairies développés en collaboration avec le LBGI==
*[[Flush]]
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
74bd2ba23fa547dfcf1358711e9ec6d5725036ae
1814
1813
2007-09-27T17:02:19Z
Wraff
5
/* Librairies développés en collaboration avec le LBGI */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
==Librairies développées en collaboration avec le LBGI==
*[[Flush]]
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
77d3557b89454997061fff57d95691095416ffee
1817
1814
2007-09-28T12:28:30Z
Wraff
5
/* Librairies */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star3,5,7, et 8 ainsi que Alnitak(WR,
Sept 2007).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
55ef14beac5f519c1b26829e3934e09340538b20
1818
1817
2007-09-28T12:31:33Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R (sur ce Wiki)
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
47a29d7403531683f272f47f4223d53f94e642a0
1819
1818
2007-09-28T12:32:42Z
Wraff
5
/* Liens */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
47d8bdbac154064679f66e01e2a83485621ebc4e
1821
1819
2007-10-01T08:25:04Z
Wraff
5
/* Liens */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
f1fd0c2057985cb74d16fdb982eeea33aa64fb55
Java
0
1293
1794
1748
2007-09-24T12:16:45Z
Dkieffer
2
/* Où trouver les fichiers pour l'execution? */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
a05327ac3384d306f44d94ab905cfca8d760d2b0
RJava
0
1349
1799
1772
2007-09-25T09:26:36Z
Dkieffer
2
wikitext
text/x-wiki
Rjava est une librairie R pour communiquer avec des objets Java
=liens=
[http://www.rforge.net/rJava/ site officiel]
[http://wiki.r-project.org/rwiki/doku.php?id=packages:cran:rjava wiki de rJava]
=Voir Aussi=
*[[JRI]]
*[[R]]
*[[java]]
80cb9e2d1dfc406ad19903e5d9d8ed1877da92a5
Cluspack
0
1353
1803
2007-09-27T11:08:05Z
Wraff
5
New page: Cluspack permet de lancer un clustering en k-means ou en mixture-models Input format: Des données doivent commencer avec une ligne indiquant le nombre des lignes et des colonnes. La prem...
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models
Input format:
Des données doivent commencer avec une ligne indiquant le nombre des lignes et des colonnes.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
Utilisation:
pour utiliser le GUI crée par Adeline et Nicolas
setcluspack
cluspackX
Il existe aussi une variante de clustering itérative en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl myDataForClustering.txt kmeans 10
Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
d16f9c136222c5b387debfe22a703a4e54ad96eb
1804
1803
2007-09-27T11:11:10Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
pour utiliser le GUI crée par Adeline et Nicolas :
setcluspack
cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl myDataForClustering.txt kmeans 10
Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
72d8047bb359a1e72f7f13e0b513e35843c21c5d
1806
1804
2007-09-27T11:46:35Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
en ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
pour utiliser le GUI crée par Adeline et Nicolas :
setcluspack
cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
Attention : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
4709735aa00f754d920df69f34efa3aa8ca7f33c
1808
1806
2007-09-27T14:54:31Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
en ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack
cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
'''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
06e0590dc90f83db23cc86a4a80192360ccdb10d
1816
1808
2007-09-28T12:17:50Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
en ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
'''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
db8d029a9796ffc9f5430297906b3ceb94d85d9f
1820
1816
2007-10-01T08:22:00Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br>
Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
En ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
'''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
e0827793ef5d9d9d8bd5d4e0f69342ce401ccf77
Flush
0
1354
1811
2007-09-27T16:59:02Z
Wraff
5
New page: ==Flush== C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix. La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Y...
wikitext
text/x-wiki
==Flush==
C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix.
La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Yidi Pawitan].
Plus des details sont dans le manuscrit : Calza S, Raffelsberger W, Ploner A, Sahel J, Leveillard T, Pawitan Y
Filtering genes to improve sensitivity in oligonucleotide microarray data analysis. [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=ShowDetailView&TermToSearch=17702762&ordinalpos=1&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_RVDocSum Nucleic Acids Res. 2007 Aug 15;35(16) e102].
1b3030eff908030b069d66e0fbcb53247136621b
1812
1811
2007-09-27T17:00:18Z
Wraff
5
/* Flush */
wikitext
text/x-wiki
C'est une librarie R dedié à la filtration des données de transcription profiling avec des puces Affymetrix.
La librairie est disponible chez [http://www.meb.ki.se/~yudpaw/ Yidi Pawitan].
Plus des details sont dans le manuscrit : Calza S, Raffelsberger W, Ploner A, Sahel J, Leveillard T, Pawitan Y
Filtering genes to improve sensitivity in oligonucleotide microarray data analysis. [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=ShowDetailView&TermToSearch=17702762&ordinalpos=1&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_RVDocSum Nucleic Acids Res. 2007 Aug 15;35(16) e102].
32cb4588cb59f10d250ccc88e6784cdc1b76ab09
Fedlord
0
1355
1822
2007-10-08T12:33:59Z
Ripp
1
Redirecting to [[FedLord]]
wikitext
text/x-wiki
#redirect [[FedLord]]
cfc5c80ad550cf8efc67c3f59d164a7b7af4ecdf
FedLord
0
1332
1823
1733
2007-10-08T12:35:19Z
Ripp
1
wikitext
text/x-wiki
FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases.
If all people are centralised in this database it will be possible to share the access rights within several Fed servers.
==Actuellement==
Actuellement c'est Genoret Database qui joue le rôle de FedLord ...
907be27968a8cd44d9ea1a87eeaa5b55039c7f9e
Dbgs
0
1356
1824
2007-10-09T15:04:02Z
Ripp
1
New page: DBGS Département de Biologie et de Génomique Structurales de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire Il est compsé de plus de 120 personnes repar...
wikitext
text/x-wiki
DBGS Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS]]
Il est dirigé par [[Patrick Schultz]]
8bc4097a2846c15f0605dc269e01fb6ea948686d
1825
1824
2007-10-09T15:04:21Z
Ripp
1
wikitext
text/x-wiki
DBGS Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
4b934dd3343fccc78aa59945ab236938cdc2f625
1826
1825
2007-10-09T15:04:50Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes reparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
58008f802aad4a160a1474b8bf9fcf94ca02dcf0
1827
1826
2007-10-09T15:05:06Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
234122f98ba9d9d7aaf1784637257c0a223f09a9
1828
1827
2007-10-09T15:06:25Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
==Links==
See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site]
757f84f119aeaf9e193bc7e58a0b8487ea2d4cd3
1829
1828
2007-10-10T08:51:34Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est compsé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
==Links==
See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site]
17fdd069f2a9ce26dff859cc68f07fcd7e444fdf
BIRD
0
1313
1833
1832
2007-10-12T06:24:46Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
proc BirdFromQueryText {Texte {OutFile ""} {BirdUrl ""}}
proc BirdFromQueryFile {Fichier {OutFile ""} {BirdUrl ""}}
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
a57b0fb1ff206a632c76e73ade85d3781ebf17cf
1834
1833
2007-10-12T06:27:57Z
Ripp
1
wikitext
text/x-wiki
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
98249a66115de78836323e61c3a27f271842e223
1835
1834
2007-10-12T06:29:41Z
Ripp
1
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website|site web]] de Hoan
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
711959509282506bf6dc678ed9c6c3e1114292e4
LBGI
0
1280
1836
1815
2007-10-15T06:58:41Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
[http://alnitak.u-strasbg.fr/~poch Olivier Poch] et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentaion en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
b64aa46ddd101dd2a184ede27a12e37f2f4bf787
1837
1836
2007-10-15T07:00:17Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
et tous les [[Membres du LBGI]]. ... [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentaion en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
32e3d3907959632e11c6e3e7a8b41d1b2cb4a77a
1838
1837
2007-10-15T07:03:39Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentaion en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
2708e6043d411b4d01de981e375db1476a9ed8e9
1839
1838
2007-10-15T07:04:17Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
fe544bdd22c546749c1ecc3511007ee97af9e665
1841
1839
2007-10-15T07:17:18Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont 10 permanents,
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
b5a07686913e9b4b969aefbd07aa4415f0ede9ea
1842
1841
2007-10-15T07:34:24Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
Le LBGI est fait parti du Département de Biologie et Génomique Structurales (DBGS)
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire (IGBMC)
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
350a8ab0732b4f9ddb1342db59dd7d3513285b3c
1843
1842
2007-10-15T07:36:26Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
Le LBGI est fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]])
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
a6999217aecb1dca66b0e87ebb439619605c09b6
1844
1843
2007-10-15T07:37:37Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
Le LBGI est fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]])
[http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme]
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
• la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
• la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
8470885f7f57b44f62194956fa1e01adc346b289
1845
1844
2007-10-15T07:40:03Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]])
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
2c871562f20575924d111c1ef7672c4bb4393004
1846
1845
2007-10-15T07:40:27Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]])
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
b4a44d2b042d11f39289ade299e59c05152911a5
1847
1846
2007-10-15T07:41:30Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
082c741c6edc7f6f8a4118e396e9e523891a68bf
1848
1847
2007-10-15T07:42:01Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
3ce4776efa88bee4e2af44ceb25cdd4e45ce667e
1849
1848
2007-10-15T07:42:28Z
Ripp
1
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
i) the development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
ii) the development of a statistical model to discriminate CGH outliers that might indicate microevents,
iii) the development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins. Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
082c741c6edc7f6f8a4118e396e9e523891a68bf
1851
1849
2007-10-17T13:50:12Z
Wraff
5
/* Bioinformatics : development of software and databases */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
104f62abcc22498adf971ea8775953f1858f699d
Membres du LBGI
0
1333
1840
1630
2007-10-15T07:15:55Z
Ripp
1
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Candel]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
eaecdff06facef166d07326457858cc92a086df3
JRI
0
1348
1850
1801
2007-10-17T09:03:03Z
Dkieffer
2
/* Se connecter a R */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*[http://www.rforge.net/JRI/snapshot/JRI_0.4-0.tar.gz JRI.tar.gz]
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
*
* for a simple instance use: Rengine R = connect(null,false,null);
*
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
5798d24e88e039489e9a9285033b1b7b1580f623
1852
1850
2007-10-17T14:19:49Z
Dkieffer
2
/* Installation */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net]
*ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici].
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
*
* for a simple instance use: Rengine R = connect(null,false,null);
*
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
8c0d5e06ebb32282c5039722d00bdd5fd3fdc11d
1853
1852
2007-10-17T14:25:47Z
Dkieffer
2
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en Java avec R.
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net]
*ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici].
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run'''
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de R. Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici]
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter a R==
/** connect to a new instance of R.
*
* for a simple instance use: Rengine R = connect(null,false,null);
*
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
fc23fc77dc3db6e0874abb45934df105b9dba70f
1855
1853
2007-10-18T08:03:33Z
Dkieffer
2
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en [[Java]] avec [[R]].
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net]
*ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici].
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' (voir l'[[JRI#Script de démarage de mon programme Java | exemple]] ).
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de [[R]] ([[JRI#Se connecter à R | méthode]] pour avoir cette instance) . Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici]
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter à R==
/** connect to a new instance of R.
*
* for a simple instance use: Rengine R = connect(null,false,null);
*
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
8fdedc1b5a4132f531ae0906097e17e6d620b600
1856
1855
2007-10-18T08:08:37Z
Dkieffer
2
/* Principes de bases */
wikitext
text/x-wiki
Java R Interface est une bibliothèque JNI ( donc à compiler ) pour communiquer en [[Java]] avec [[R]].
=Installation=
Pour pouvoir installer JRI, vous devez avoir correctement installé et configuré préalablement Java ( 1.5 minimum ) et R (avec les libraries dynamiques comme libR.so) .
Téléchargez l'archive.
*JRI.tar.gz sur [http://www.rforge.net/JRI/ rforge.net]
*ou la version 0.4-0 directement [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_0.4-0.tar.gz ici].
Ensuite déployez le répertoire et placez vous dans sa racine.
*Sous linux
./configure
make
*Sous Windows
sh configure.win
make
=Lancement=
Lors de l'installation, à la racine, un script '''run''' à été créé.
C'est un exemple de script pour pouvoir lancer un programme [[Java]] utilisant JRI.
Le script est en deux parties. Une pour configurer les variables d'environnements Système et une pour les variables java.
==Les variables d'environnements==
*R_HOME
*R_SHARE_DIR
*R_INCLUDE_DIR
*R_DOC_DIR
*LD_LIBRARY_PATH
Vous pouvez les configurer soit directement dans le système soit les paramétrer dans un script de démarage comme dans le fichier '''run''' (voir l'[[JRI#Script de démarage de mon programme Java | exemple]] ).
==Les variables java==
A la commande Java, vous devez rajouter deux options obligatoires:
*-Djava.library.path="Le repertoire racine de JRI"
*-cp "Le repertoire racine de JRI/src/JRI.jar":"Repertoire de vos classes et jar"
=Principes de bases=
Tout se fait à partir d'un objet Rengine qui représente une instance de [[R]] ([[JRI#Se connecter à R | méthode]] pour avoir cette instance) . Il y a deux commandes principales:
*'''assign'''("R ref",java Object) qui va convertir un objet Java en Objet R.
*'''eval'''("R commande") qui va executer la commande R et renvoyer le résultat en un objet java REXP qui pourra ensuite être convertie en un objet Java correspondant via ses méthodes.
'''Attention''': La méthode ''assign'' n'est pas exécutée tout de suite dans R. L'objet sera effectif seulement après un ''eval("R ref")''.
La doc de l'API 0.4-0 est téléchargeable [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip ici]
=Exemples=
==Script de démarage de mon programme Java==
#!/bin/sh
#
#Var environment
#
R_HOME=/usr/lib/R
export R_HOME
R_SHARE_DIR=/usr/share/R/share
export R_SHARE_DIR
R_INCLUDE_DIR=/usr/share/R/include
export R_INCLUDE_DIR
R_DOC_DIR=/usr/share/R/doc
export R_DOC_DIR
LD_LIBRARY_PATH=${R_HOME}/lib:${R_HOME}/bin
export LD_LIBRARY_PATH
#
#java commande
#
java -Djava.library.path="/home/moi/JRI" -cp "/home/moi/JRI/src/JRI.jar" -jar " /home/moi/RTest/RTest.jar"
==Se connecter à R==
/** connect to a new instance of R.
*
* for a simple instance use: Rengine R = connect(null,false,null);
*
* @param args arguments to be passed to R. Please note that R requires the presence of certain
* arguments (e.g. <code>--save</code> or <code>--no-save</code> or equivalents), so passing an empty
* list usually doesn't work.
* @param b if set to <code>true</code> the the event loop will be started as soon as
* possible, otherwise no event loop is started. Running loop requires <code>initialCallbacks</code> to
* be set correspondingly as well.
* @param rMain an instance implementing the {@link org.rosuda.JRI.RMainLoopCallbacks
* RMainLoopCallbacks} interface that provides methods to be called by R
* @return a new R instance
* @throws java.lang.Exception when the connection failed
*/
public static Rengine connect(String[] args,boolean b, RMainLoopCallbacks rMain) throws Exception{
// just making sure we have the right version of everything
if (!Rengine.versionCheck()) {
throw new Exception("** Version mismatch - Java files don't match library version.");
}
Rengine re=new Rengine(args, b, rMain);
// the engine creates R is a new thread, so we should wait until it's ready
if (!re.waitForR()) {
throw new Exception("Cannot load R");
}
return re;
}
==Passer une matrice à R depuis Java==
/**
* Create a matrix objet in R from 2D table of double
*
* @param r the R instance used
* @param matrix the 2D table of double
*
* the matrix must have always the same column number on every row
*
* @param assign the R object name
* @return R matrix instance or null if R return a error
*
* To convert this R matrix to double[][], use asMatrix() method
* or r.eval(assign).asMatrix();
*
*/
public static REXP toRmatrix(Rengine r,double[][] matrix,String assign){
REXP resultat=null;
if(matrix.length>0){
r.assign(assign,matrix[0]);
resultat=r.eval(assign+" <- matrix( "+assign+" ,nr=1)");
}else{
return null;
}
for(int i=1; i<matrix.length;i++){
r.assign("intermediaire",matrix[i]);
resultat=r.eval(assign+" <- rbind("+assign+",matrix(intermediaire,nr=1))");
}
return resultat;
}
=liens=
[http://www.rforge.net/JRI/ Le site du projet]
[http://www.rosuda.org/R/nightly/JavaDoc/org/rosuda/JRI/package-summary.html La javaDoc]
La doc de l'API 0.4-0 en [http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/JRI/JRI_doc.zip zip]
=Voir aussi=
*[[Java]]
*[[R]]
*[[rJava]]
6d780aa527fd3499edcd73528c22e3aeebf59c53
RReportGenerator
0
1342
1854
1790
2007-10-17T14:34:05Z
Wraff
5
wikitext
text/x-wiki
La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/RRG.htm RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange R et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existe un scenario d'analyse pour resumant une large collection des types de controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot.
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]
# Puces à cellules transfectées (TCA)
En conclusion, RReportGenerator permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
148682e9d7d00987f5c6a30e2bfc3371455dc3d8
Sophie Candel
0
1337
1857
1623
2007-10-18T13:23:40Z
Candel
10
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28SepF07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
a005d8c0385580629f735c83b54dcec60e1552f9
1858
1857
2007-10-18T13:24:30Z
Candel
10
wikitext
text/x-wiki
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
7533f89d9c3be0637dd797da54b9719a52c6a390
1859
1858
2007-10-18T13:25:24Z
Candel
10
wikitext
text/x-wiki
Les présentations:
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
bb0c64c2abcf40332a13719154f15f2081a2443d
1860
1859
2007-10-18T13:25:33Z
Candel
10
wikitext
text/x-wiki
Les présentations:\n
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
d9475a41acdc7cb05fecc014d8e3b457d2abea88
1861
1860
2007-10-18T13:25:44Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://www.research.ibm.com/UIMA/ IBM, projet UIMA]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
9ba6035746ee2672be50f256ed2d1ad0c2918379
1862
1861
2007-10-18T13:29:30Z
Candel
10
a
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://www.alphaworks.ibm.com/tech/uima/download UIMA SDK]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
d6c65c1e95604e8b106b708f7a6772af4af1322f
1863
1862
2007-10-18T13:31:11Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.0]
[http://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf UIMA user’s guide]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
966988b2df5647b8400740b479ad718f37414f9b
1864
1863
2007-10-18T13:37:29Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Sources UIMA]
[http://incubator.apache.org/uima/javadoc.html UIMA javadoc]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
c49a7eaea9acabc6f9be52b472a8b3864852d07c
1865
1864
2007-10-18T13:38:02Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html la documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
cf8b00348a5cf5c29ee9bb06c5347f6fe4bfc606
1866
1865
2007-10-18T13:38:20Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do UIMA Component Repository]
[http://www.eclipse.org/downloads/ Eclipse]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
03fbb732ea8f3455a1fe3b9f606f8f06b7e7b3bd
1867
1866
2007-10-18T13:44:22Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
Mon guide en cours de rédaction:
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt UIMA Survival Guide for IBISSA Developers]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
259540741cc0020f55fc76aef18798d18f2db0d6
1868
1867
2007-10-18T13:44:57Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
Mon guide en cours de rédaction:
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2 UIMA Survival Guide for IBISSA Developers]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
d278ab8d8dcc921937fa0e67bbfd564f8b1f452f
1869
1868
2007-10-18T13:45:52Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
Mon guide en cours de rédaction:
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt UIMA Survival Guide for IBISSA Developers]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
259540741cc0020f55fc76aef18798d18f2db0d6
1870
1869
2007-10-18T13:47:48Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
et pour Christophe ;)
[http://www.julielab.de/content/view/117/179/ Julie]
Un petit dernier pour la route, il s'agit d'une vidéo pour générer les Fameux PEAR:
[http://uima.lti.cs.cmu.edu:8080/UCR/pages/static/uima_components/uima_components.html Video PEAR]
d9d6061f938a92cb6c8f66ef625bde3b2c1c9a95
1871
1870
2007-10-18T13:48:44Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant encore de votre attention ;o)
513a57fb9b979f07b57e55d3c706d0be741459e1
1872
1871
2007-10-18T13:48:56Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant de votre attention ;o)
806cdd0933a7e42dfe3751183cf1e77072fdb332
1873
1872
2007-10-18T13:49:27Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant de votre attention ;o)
0139f5dd316af350d87a2458d2ceb4d9ab565b65
1874
1873
2007-10-18T13:49:41Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br><br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
En vous remerciant de votre attention ;o)
e83601c5fd0934798fdd3d3b8c046a79a59a090f
1875
1874
2007-10-18T13:50:22Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br><br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
85cd1aacb47264fabe8733d57f66c0d3f2b7115e
1876
1875
2007-10-18T13:50:52Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br><br>
<t>SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
3dd95b122017a43c497579e24c5ee764b268342f
1877
1876
2007-10-18T13:51:30Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br><br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les Sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
85cd1aacb47264fabe8733d57f66c0d3f2b7115e
1878
1877
2007-10-18T13:53:40Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
Quelques liens utiles pour UIMA:<br><br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
72f395a7245497345e5f06e37fb3c1a91de053e6
Dbgs
0
1356
1879
1829
2007-10-19T11:29:17Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
==Abréviations==
DBGS, MEM, LBGI, ... voir [[Abréviations]]
==Links==
See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site]
107288adecbe65f943b033f8f01a76d258208f1a
Abréviations
0
1357
1880
2007-10-19T11:43:23Z
Ripp
1
New page: * DBGS Département de Biologie et de Génomique Structurales * LBGI Laboratoire de Bioinformatique et de Génomique Structurales * LBCMM BioCristallographie et Modélisation Moléculair...
wikitext
text/x-wiki
* DBGS Département de Biologie et de Génomique Structurales
* LBGI Laboratoire de Bioinformatique et de Génomique Structurales
* LBCMM BioCristallographie et Modélisation Moléculaire
* LEIG Expression de l'Information Génétique
* CIMC Catalyse et Inhibition : Méthodologie Cristallographique
* MEM Microscopie Electronique Moleculaire
* MM Modelisation Moléculaire
* BIPS BioInformatic Platform Strasbourg
* PBGS Plateforme Biologie et Génomique Structurales
* LRMNB Résonnance Magnétique Nucléaire Biomoléculaire
* SRC Signalisations et Réponses Cellulaires</a></li>
* SFPC Structure and Function of Protein Complexes
* SNR Steroid Nuclear Receptor
* Alexsys Alignment Expert System
* EvolHHuPro Evolution Histories of Human Proteome
* MyoNet Myogenesys Network
a8c485da5f41ab1e15a31ce98c78d76b6ea72b6a
1881
1880
2007-10-19T11:44:55Z
Ripp
1
wikitext
text/x-wiki
* '''DBGS''' Département de Biologie et de Génomique Structurales
* '''LBGI''' Laboratoire de Bioinformatique et de Génomique Structurales
* '''LBCMM''' BioCristallographie et Modélisation Moléculaire
* '''LEIG''' Expression de l'Information Génétique
* '''CIMC''' Catalyse et Inhibition : Méthodologie Cristallographique
* '''MEM''' Microscopie Electronique Moleculaire
* '''MM''' Modelisation Moléculaire
* '''BIPS''' BioInformatic Platform Strasbourg
* '''PBGS''' Plateforme Biologie et Génomique Structurales
* '''RMNB''' Résonnance Magnétique Nucléaire Biomoléculaire
* '''SRC''' Signalisations et Réponses Cellulaires</a></li>
* '''SFPC''' Structure and Function of Protein Complexes
* '''SNR''' Steroid Nuclear Receptor
* '''Alexsys''' Alignment Expert System
* '''EvolHHuPro''' Evolution Histories of Human Proteome
* '''MyoNet''' Myogenesys Network
493db7d346d2704b146edfd7aaadc216a3b18ea8
1882
1881
2007-10-19T11:45:20Z
Ripp
1
wikitext
text/x-wiki
<pre>
* '''DBGS''' Département de Biologie et de Génomique Structurales
* '''LBGI''' Laboratoire de Bioinformatique et de Génomique Structurales
* '''LBCMM''' BioCristallographie et Modélisation Moléculaire
* '''LEIG''' Expression de l'Information Génétique
* '''CIMC''' Catalyse et Inhibition : Méthodologie Cristallographique
* '''MEM''' Microscopie Electronique Moleculaire
* '''MM''' Modelisation Moléculaire
* '''BIPS''' BioInformatic Platform Strasbourg
* '''PBGS''' Plateforme Biologie et Génomique Structurales
* '''RMNB''' Résonnance Magnétique Nucléaire Biomoléculaire
* '''SRC''' Signalisations et Réponses Cellulaires</a></li>
* '''SFPC''' Structure and Function of Protein Complexes
* '''SNR''' Steroid Nuclear Receptor
* '''Alexsys''' Alignment Expert System
* '''EvolHHuPro''' Evolution Histories of Human Proteome
* '''MyoNet''' Myogenesys Network
</pre>
980d4f5757a34f304c5fe60985ca3c03f9670045
Abréviations
0
1357
1883
1882
2007-10-19T11:51:24Z
Ripp
1
wikitext
text/x-wiki
<pre>
DBGS Département de Biologie et de Génomique Structurales
LBGI Laboratoire de Bioinformatique et de Génomique Structurales
LBCMM BioCristallographie et Modélisation Moléculaire
LEIG Expression de l'Information Génétique
CIMC Catalyse et Inhibition : Méthodologie Cristallographique
MEM Microscopie Electronique Moleculaire
MM Modelisation Moléculaire
BIPS BioInformatic Platform Strasbourg
PBGS Plateforme Biologie et Génomique Structurales
RMNB Résonnance Magnétique Nucléaire Biomoléculaire
SRC Signalisations et Réponses Cellulaires</a></li>
SFPC Structure and Function of Protein Complexes
SNR Steroid Nuclear Receptor
Alexsys Alignment Expert System
EvolHHuPro Evolution Histories of Human Proteome
MyoNet Myogenesys Network
</pre>
83fa64be8c2f617d773ac8238f4c697b21b0532c
1884
1883
2007-10-19T11:52:23Z
Ripp
1
wikitext
text/x-wiki
<pre>
BIPS BioInformatic Platform Strasbourg
CIMC Catalyse et Inhibition : Méthodologie Cristallographique
DBGS Département de Biologie et de Génomique Structurales
LBGI Laboratoire de Bioinformatique et de Génomique Structurales
LBCMM BioCristallographie et Modélisation Moléculaire
LEIG Expression de l'Information Génétique
MEM Microscopie Electronique Moleculaire
MM Modelisation Moléculaire
PBGS Plateforme Biologie et Génomique Structurales
RMNB Résonnance Magnétique Nucléaire Biomoléculaire
SFPC Structure and Function of Protein Complexes
SNR Steroid Nuclear Receptor
SRC Signalisations et Réponses Cellulaires
Alexsys Alignment Expert System
EvolHHuPro Evolution Histories of Human Proteome
MyoNet Myogenesys Network
</pre>
689b5cbc101c644da41cf308147213009665bc87
1889
1884
2007-10-19T11:58:57Z
Ripp
1
Redirecting to [[Abbreviations]]
wikitext
text/x-wiki
#redirect [[Abbreviations]]
61d288ed34bc9c8171772ae8c35f8d28a57a50f5
Abreviations
0
1358
1885
2007-10-19T11:54:33Z
Ripp
1
Redirecting to [[Abréviations]]
wikitext
text/x-wiki
#redirect [[Abréviations]]
7e49cd0492b64bdd7abaf27c4c17fcde3e7d9c64
1888
1885
2007-10-19T11:58:00Z
Ripp
1
Redirecting to [[Abbreviations]]
wikitext
text/x-wiki
#redirect [[Abbreviations]]
61d288ed34bc9c8171772ae8c35f8d28a57a50f5
Abbreviations
0
1359
1886
2007-10-19T11:56:18Z
Ripp
1
Redirecting to [[Abréviations]]
wikitext
text/x-wiki
#redirect [[Abréviations]]
7e49cd0492b64bdd7abaf27c4c17fcde3e7d9c64
1887
1886
2007-10-19T11:57:04Z
Ripp
1
wikitext
text/x-wiki
<pre>
BIPS BioInformatic Platform Strasbourg
CIMC Catalyse et Inhibition : Méthodologie Cristallographique
DBGS Département de Biologie et de Génomique Structurales
LBGI Laboratoire de Bioinformatique et de Génomique Structurales
LBCMM BioCristallographie et Modélisation Moléculaire
LEIG Expression de l'Information Génétique
MEM Microscopie Electronique Moleculaire
MM Modelisation Moléculaire
PBGS Plateforme Biologie et Génomique Structurales
RMNB Résonnance Magnétique Nucléaire Biomoléculaire
SFPC Structure and Function of Protein Complexes
SNR Steroid Nuclear Receptor
SRC Signalisations et Réponses Cellulaires
Alexsys Alignment Expert System
EvolHHuPro Evolution Histories of Human Proteome
MyoNet Myogenesys Network
</pre>
689b5cbc101c644da41cf308147213009665bc87
Sophie Candel
0
1337
1890
1878
2007-10-24T12:06:36Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt Guide de Survie IBISSA] Octobre 2007
<br>
Quelques liens utiles pour UIMA:<br><br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
5e16c57a89df08df886101167cfad8e3754e7a81
1891
1890
2007-10-24T12:12:07Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.odt Guide de Survie IBISSA] Octobre 2007(NB: document .odt --> Enregistrer puis ouvrir avec Open Office Writer)
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
32c06427dfcb442bda6ff3edbf63415c314e5dc9
1892
1891
2007-10-24T12:54:39Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V2.pdf Guide de Survie IBISSA] Octobre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
15bf5e356425870e10a32169d684d8b617ce9758
1905
1892
2007-11-14T12:41:30Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
c2baca2830fd02797fe199e009ba5b7cfbea5ecf
1906
1905
2007-11-14T13:10:38Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>En vous remerciant de votre attention ;o)
67f9f6dc0f2a993eac1cf02758a79e9889fbe67e
1907
1906
2007-11-14T13:11:30Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
d8ee694d17c06c27d07003c4551b4489c0ec2036
Java
0
1293
1893
1794
2007-10-25T07:45:04Z
Dkieffer
2
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes lien a Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
9275168b98f6c98507d81ad283527c1428697536
1894
1893
2007-10-25T07:45:28Z
Dkieffer
2
/* Projets internes lien a Java */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
daaad3e7197635964cd7d69eed1bdbe334ede299
1899
1894
2007-10-29T08:34:09Z
Dkieffer
2
/* Projets internes liés à Java */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
1965fff8403f6ad1ff3eb367cb35e4523ec6f3b0
JMacs
0
1360
1895
2007-10-25T07:53:44Z
Dkieffer
2
New page: Un projet de librairie Java pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le for...
wikitext
text/x-wiki
Un projet de librairie Java pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le format [[MACSIMS]].
Le projet est sur le [[CVS]] de notre labo sous [[User:Dkieffer | dkieffer]].
f506e8e03726dfa2c2f3817504d1d4be9e15f601
1898
1895
2007-10-25T08:09:57Z
Dkieffer
2
wikitext
text/x-wiki
Un projet de librairie [[Java]] pour manipuler simplement des alignements multiples, basé sur [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16043635 mao] et le format [[MACSIMS]].
Le projet est sur le [[CVS]] de notre labo sous [[User:Dkieffer | dkieffer]].
5874a93652875ce4fa9053a5442fe9728e82e7a8
ProGS
0
1298
1896
1384
2007-10-25T07:54:50Z
Dkieffer
2
wikitext
text/x-wiki
ProGS est la base de données Gscope Clonage
Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule !
En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au [[MACSIMS]] de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales.
ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS]
Il faudrait développer Gscope Clonage en base de données SQL ...
ff07744b0e1ab23f90ffae05f4c0be5e609a8aa3
IBISSA
0
1361
1897
2007-10-25T08:04:55Z
Dkieffer
2
New page: IBISSA : Intelligent BioInformatics Solutions Software Architecture Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] p...
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
034b09df5c53e55d005b949fe87730dd60cf45fc
1908
1897
2007-11-15T16:32:50Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
<br>
<br>
<br>
'''Créer un projet IBISSA sur Star:'''
<br>
<br>
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenetre de commande:
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail
<br>
<br>
Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Amusez-vous bien ;o)
df217f08e6cb2a30aa131c6ceac8e08394d66395
1909
1908
2007-11-15T16:46:15Z
Dkieffer
2
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
<br>
<br>
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenetre de commande:
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail
<br>
<br>
Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
a0a22acd9716fe94925e441f5009d91d52a53665
1910
1909
2007-11-15T16:49:34Z
Dkieffer
2
/* Créer un projet IBISSA sur Star */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenetre de commande:
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait il ne vous reste plus qu'a paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
1928d0978b5e0b43d240585a44e89f1385542da9
1913
1910
2007-11-16T08:57:53Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenetre de commande:
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
a3946750306c8a1a4c29dfa9471624c8d93413b7
RReportGenerator
0
1342
1900
1854
2007-10-30T17:22:49Z
Wraff
5
wikitext
text/x-wiki
La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
1f36ff9030e13bc687541ef1d983bfa1aacd0c83
1922
1900
2007-11-20T11:04:58Z
Wraff
5
wikitext
text/x-wiki
View this page in English : [[RRG_english]]
La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. RReportGenerator a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme RReportGenerator (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
5cf991ffe46d2b1d03e46c6a257c93600bba41d2
1923
1922
2007-11-20T11:21:32Z
Wraff
5
wikitext
text/x-wiki
View this page in English : [[RRG_english]]
La plate-forme statistique [[R]] [http://www.r-project.org voir aussi le site de R] et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile aux non statisticiens.
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme R pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par MAIA).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
72a97817adfe984b1bdc3e5a7aeece52af1a5549
1926
1923
2007-11-20T13:47:56Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RRG_english]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
ad6940e3874532961f1c131807d29bdee3704ddc
1929
1926
2007-11-20T13:49:54Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_english]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
26986cf07292389f55121fdcada9854fbf87cd29
1931
1929
2007-11-20T13:50:31Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format PDF contenant un résumé des résultats de l’analyse avec figures et tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
1a3a29db84ec25b85e013c01ea29c34a3003ce4c
Yannick-Noël Anno
0
1336
1901
1600
2007-11-13T13:09:38Z
Yannick-Noel
6
/* Utilitaires */
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
* '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut)
* '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut)
* '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour)
* '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC)
* '''CrmTargers''' : Recherche, pour une séquence donnée (chromosome:start-end):
* le gène le plus proche peu importe le brin, en 5', interne ou en 3'
* les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir.
Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça.
928ac63f934cd606826be3d42fd0381732c9dfab
1902
1901
2007-11-13T13:11:23Z
Yannick-Noel
6
/* Parcours */
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
* 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
* '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut)
* '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut)
* '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour)
* '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC)
* '''CrmTargers''' : Recherche, pour une séquence donnée (chromosome:start-end):
* le gène le plus proche peu importe le brin, en 5', interne ou en 3'
* les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir.
Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça.
a8036b19fbfaeb0a1293af80389a61f604d1a219
1903
1902
2007-11-13T13:11:50Z
Yannick-Noel
6
/* Utilitaires */
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
* 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
* '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut)
* '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut)
* '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour)
* '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC)
* '''CrmTargets''' : Recherche, pour une séquence donnée (chromosome:start-end):
* le gène le plus proche peu importe le brin, en 5', interne ou en 3'
* les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir.
Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça.
7d1b30816619b0b0573a813d43904f3752e95d9e
1904
1903
2007-11-13T13:12:46Z
Yannick-Noel
6
/* Utilitaires */
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
* 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
* '''AverageSize''' : Détermine la longueur moyenne d'un exon ou un intron donné pour un ensemble de gènes donné (UCSC refGene par défaut)
* '''MonoExonCount''' : Détermine le nombre de gène ne possèdant qu'un unique exon (UCSC refGenes par défaut)
* '''ChromSize''' : Renvoie la taille d'un chromosome donné pour un génome donné (données Ensembl, souris seulement à ce jour)
* '''ConservHM''' : Recherche un ensemble de séquences humaines (TFBS) dans les zones conservées homme-souris et les score au besoin (UCSC)
* '''CrmTargets''' : Recherche, pour une séquence donnée (chromosome:start-end):
* le gène le plus proche peu importe le brin, en 5', interne ou en 3'
* les deux gènes potentiellement régulés par cette séquence (distance de "régulabilité" à fournir).
Ce programme fournit la distance au TSS, l'exon ou l'intron si lon se trouve dans un gène, le nom et la description du gène considéré etc... Vitesse de traitement moyenne : 50.000 séquences par heure. Une version web existe. Me contacter pour ça.
23ec4e8fbd5e94efa4e57c8a8652bdb406356100
LBGI
0
1280
1911
1851
2007-11-16T08:26:23Z
Julie
14
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Projets=
==EvolHHuPro==
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
296f84a155beb54efdf54d75679bfeef4df30f32
1912
1911
2007-11-16T08:27:51Z
Julie
14
/* EvolHHuPro */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Projets=
==EvolHHuPro==
Evolutionary Histories of the HUman Proteome
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
fa91d5b7df556373f71de74ca821fd15608f905e
1914
1912
2007-11-16T09:17:17Z
Julie
14
/* EvolHHuPro */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Projets=
==EvolHHuPro==
[[Evolutionary Histories of the HUman Proteome]]
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
4c1dc474ee16b8eba5bd0d9c650a484bd5edfde3
1915
1914
2007-11-16T09:20:02Z
Julie
14
/* EvolHHuPro */
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://alnitak.u-strasbg.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Projets=
==EvolHHuPro==
[http://alnitak.u-strasbg.fr/wikili/index.php/EvolHHuPro Evolutionary Histories of the HUman Proteome]
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
a7d93832f9d949d411cfd017205dd63cf77cd4c4
EvolHHuPro
0
1362
1916
2007-11-16T09:20:53Z
Julie
14
New page: The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis. The gene...
wikitext
text/x-wiki
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism.
The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression).
At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference.
Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation.
We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step.
1ce48a89eef0cea9837286acf1894818a510e356
1917
1916
2007-11-16T09:21:37Z
Julie
14
wikitext
text/x-wiki
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism.
The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression).
At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference.
Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation.
We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step.
863b9abc3cdf1b671e9c9991e19073b82af71cf1
1918
1917
2007-11-16T09:23:06Z
Julie
14
wikitext
text/x-wiki
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
=Overview=
The genetic information encoded in the genome sequence contains the blueprint for the potential development and activity of an organism. This information can only be fully comprehended in the light of the evolutionary events (duplication, loss, recombination, mutation…) acting on the genome, that are reflected in changes in the sequence, structure and function of the gene products (nucleic acids and proteins) and ultimately, in the biological complexity of the organism.
The recent availability of the complete genome sequences of a large number of model organisms means that we can now begin to understand the mechanisms involved in the evolution of the genome and their consequences in the study of biological systems. This is illustrated by the evolutionary analyses and phylogenetic inferences that play an important role in most functional genomics studies, e.g. of promoters (‘phylogenetic footprinting’), of interactomes (notion of ‘interologs’ based on the presence and degree of conservation of counterparts of interactive proteins), and also, in comparisons of transcriptomes or proteomes (notion of phylogenetic proximity and co-regulation/co-expression).
At the same time, theoretical advances in information representation and management have revolutionised the way experimental information is collected, stored and exploited. Ontologies, such as Gene Ontology (GO) or Sequence Ontology (SO), provide a formal representation of the data for automatic, high-throughput data parsing by computers. These ontologies are being exploited in the new information management systems to allow large scale data mining, pattern discovery and knowledge inference.
Unfortunately, the vast number and complexity of the events shaping eukaryotic genomes means that a complete understanding of evolution at the genomic level is not currently feasible. At the lowest level, point mutations affect individual nucleotides. At a higher level, large chromosomal segments undergo duplication, lateral transfer, inversion, transposition, deletion and insertion. Ultimately, whole genomes are involved in processes of hybridization, polyploidization and endosymbiosis, often leading to rapid speciation.
We propose to characterise and to study the evolutionary histories of the human proteome, defined as the impact in the human proteins (extensions, insertions, deletions…) of the cascade of genetic events (duplication, lateral transfer, inversion, transposition, deletion, insertion…) that occurred during the evolution of the vertebrate genomes. This ambitious objective is now possible thanks to the emergence of formal descriptions of biological data and to the recent developments of accurate phylogenetic reconstruction and genome analyses (Partner 1: Figenix platform) and of automated reliable and exploitable protein sequence alignments (Partner 1 & 2: TCOFFEE, PipeAlign, MAO, MACSIMS…). These methodologies will be combined into a multi-agent, expert system for the construction of evolutionary histories. In order to facilitate the automatic definition of the important genetic events shaping a single protein and their potential causalities at the genome level, a new ontology will be developed. In a subsequent step, the evolutionary histories of the complete human proteome will be reconstructed, followed by their classification into protein sets sharing typical evolutionary histories, and the functional analysis of these sets. An analysis at the genomic level will be realized for a specific number of proteins identified in the classification and functional analysis step.
=Definition of an ontology of genetic events and their consequences=
The first stage of the project will be the formal specification of genetic events and evolutionary concepts in the form of an ontology, which will allow their exploitation in automatic knowledge extraction and inference systems. Ontologies are essential in biology for integration, organization, and knowledge management of heterogeneous information. Ontologies also provide a means of dissemination of knowledge between experts in different fields (molecular biologists, computer scientists and mathematicians). The ontology will cover the genetic events at the genomic level, such as gene duplication and loss, hybridization, horizontal gene transfer, or recombination, as well as their consequences at the protein level, in terms of domain insertions/deletions and extensions. The ontology will specify individual concepts and the relationships existing between these concepts. An important aspect of the ontology development will be the specification of links to existing biological ontologies, particularly SO and MAO, Multiple Alignment Ontology (Thompson et al., 2006). Relations will be based on the Relation Ontology (RO) wherever possible.
=Development of an expert system for the reconstruction of the evolutionary history of a single protein=
We will then develop methodologies that will allow the automatic reconstruction of the evolutionary history for a given gene. These will cover the automatic identification of homologs and the construction of a high quality Multiple Alignment of Complete Sequences (MACS), using the MAFFT or T-Coffee algorithms. For large protein families, a clustering method (TribeMCL) will be used to divide the set of homologs, into subsets containing less than 250 sequences, which will allow us to handle these cases efficiently. A detailed quality analysis of the multiple alignment will allow the identification of the reliable regions (RASCAL, LEON, NorMD) and the construction of an accurate phylogenetic tree (Figenix). The MACS will also be used to calculate the evolutionary rate of the gene, to determine the domain organisation (MACSIMS) and to identify family or sub-family specific residues (OrdAlie). The results will allow us to identify important genetic events and fixed functional features that will specify the potential evolutionary history of the protein in specific phyla. An interactive tool will also be developed to localise and display the genetic events at specific branches of the gene’s phylogenetic tree which will allow in-depth analysis of specific genes, for example, to detect inconsistencies that might suggest a functional shift or to reconstruct ancestral proteins.
=Analysis of the evolutionary histories at the human proteome-scale=
The formal specifications and the methodologies developed will be used to reconstruct the evolutionary histories for the complete human proteome. For each of the approximately 35000 genes, homologs will be identified in the currently available complete vertebrate genomes. The evolutionary histories of the proteins will then be analysed and classified to define sets of typical evolutionary histories, which will be exploited in proteome scale analyses, for example, to compare protein families with stable or unstable evolutionary rates, or to determine the set of proteins that have never, or frequently, experienced specific events during the vertebrate evolution, such as gene duplications, domain fusions or insertions, N-terminal extensions...
We will then perform a structural/functional analysis of the protein sets corresponding to each typical history, in order to detect potential enrichment of a particular class of proteins, for example, informational proteins or proteins involved in specific biological process. Finally, for a specific number of the proteins identified in the analysis, the relations defined in the ontology will be exploited in order to map the protein level events to the available complete vertebrate genomes. Two distinct sets of proteins will be primarily analysed; namely, the proteins that have experienced major N-terminal extension or insertion and proteins that exhibit potential true ortholog loss. When data are available, these two protein sets will be studied to characterise potential correlations between N-terminal region genetic events and promoter or transcriptional behaviour shifts in the vertebrate lineage or between orthology losses and macromolecular complex or biological pathway modifications.
5edcbe0945c7e94494380e0f724c4a771710ba1f
MyoNet
0
1363
1919
2007-11-16T11:21:05Z
Julie
14
New page: Large-scale identification of transcriptional networks during myogenesis Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and hum...
wikitext
text/x-wiki
Large-scale identification of transcriptional networks during myogenesis
Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and humans. During growth or regeneration, skeletal muscle cells are unable to divide but replenish from a population of progenitor stem cells, which have the unique ability to divide, to produce copies of themselves as well as differentiating muscle cells. F. Relaix has identified and characterized a novel major progenitor stem cell population which gives rise to nearly all skeletal muscle cells, including the myogenic stem cell population of the adult, and identified key transcription regulators (Pax3 and Pax7) implicated in survival, specification and proliferation of these cells.
The aim of the project is to identify the molecular transcriptional mechanisms of myogenic progression in vivo. The central strategy is to develop a tight collaboration between the group of F. Relaix, where all the biological data will be generated and validated, and the team of O. Poch , where all the computing analysis will be performed. The project will primarily utilize the mouse, as this is the only mammalian system tractable for comprehensive molecular genetic studies.
As a first step, the laboratory of F. Relaix is currently generating new mouse genetic tools (transgenic mice carrying fluorescent reporter genes targeted in genes marking key step of myogenic progession) in order to gain access to pure myogenic populations in vivo using cell sorting. Using this strategy we will be able to isolate muscle progenitor cells, myoblasts and fibers at different time-points (throughout development, in postnatal and regenerating muscles) and perform transcriptomal analyses in collaboration with O. Poch’s team. Large-scale quantitative RT-PCR will be undertaken to validate the microarrays data. This high-throughput transcriptomal analysis will provide us with the complete set of genes involved in the myogenic lineage.
In parallel, the team of O. Poch will characterize of the total set of mouse proteins involved directly or indirectly in the transcriptional processes. This will require an in depth sequence, structural, evolutionary (SSE) and functional analysis of the mouse proteome with the major objective of defining and delineating any conserved domains or regions that might be associated to known transcriptional modules. This work will be performed in collaboration with M. Andrade’s team (Ottawa, Canada) in the context of the International Regulome Consortium (http://www.internationalregulomeconsortium.ca/). In the framework of the proposed Decrypthon project, the SSE analysis of the entire human/mouse proteome (~60 000 proteins including splice variants and the human or mouse specific proteins) will involve a pipeline of processes starting with homology identification, multiple sequence alignment, structural and functional subfamily classification, orthology/paralogy analysis and phylogenetic reconstruction. We will take advantage of the previous developments performed on the Decrypthon grid, notably those concerning the MACSIMS (Multiple Alignment of Complete Sequence Information Management System) functional annotation and new protocols will be developed including PSI-Blast searches to detect distantly related proteins, recent multiple alignment algorithms implementation and phylogenetic tree algorithms. Protocols ensuring automated updating and storage in a relational database, hosted by the Decrypthon, will be developed.
The results will be combined with the data from the transcriptomal analysis performed in vivo. This complementary approach is expected to help us to identify and characterise the transcriptional networks involved in muscle development, specification, regeneration and myogenic progression. In vivo functional validation will be done using mouse molecular genetics and expertise in muscle biology in the laboratory of F. Relaix.
111f7a2eb804aa4d30e44b55dd0d67d7234ed394
1920
1919
2007-11-16T11:21:22Z
Julie
14
wikitext
text/x-wiki
=Large-scale identification of transcriptional networks during myogenesis=
Stem cells play a central role in development and maintenance of tissues and organs in the body of animals and humans. During growth or regeneration, skeletal muscle cells are unable to divide but replenish from a population of progenitor stem cells, which have the unique ability to divide, to produce copies of themselves as well as differentiating muscle cells. F. Relaix has identified and characterized a novel major progenitor stem cell population which gives rise to nearly all skeletal muscle cells, including the myogenic stem cell population of the adult, and identified key transcription regulators (Pax3 and Pax7) implicated in survival, specification and proliferation of these cells.
The aim of the project is to identify the molecular transcriptional mechanisms of myogenic progression in vivo. The central strategy is to develop a tight collaboration between the group of F. Relaix, where all the biological data will be generated and validated, and the team of O. Poch , where all the computing analysis will be performed. The project will primarily utilize the mouse, as this is the only mammalian system tractable for comprehensive molecular genetic studies.
As a first step, the laboratory of F. Relaix is currently generating new mouse genetic tools (transgenic mice carrying fluorescent reporter genes targeted in genes marking key step of myogenic progession) in order to gain access to pure myogenic populations in vivo using cell sorting. Using this strategy we will be able to isolate muscle progenitor cells, myoblasts and fibers at different time-points (throughout development, in postnatal and regenerating muscles) and perform transcriptomal analyses in collaboration with O. Poch’s team. Large-scale quantitative RT-PCR will be undertaken to validate the microarrays data. This high-throughput transcriptomal analysis will provide us with the complete set of genes involved in the myogenic lineage.
In parallel, the team of O. Poch will characterize of the total set of mouse proteins involved directly or indirectly in the transcriptional processes. This will require an in depth sequence, structural, evolutionary (SSE) and functional analysis of the mouse proteome with the major objective of defining and delineating any conserved domains or regions that might be associated to known transcriptional modules. This work will be performed in collaboration with M. Andrade’s team (Ottawa, Canada) in the context of the International Regulome Consortium (http://www.internationalregulomeconsortium.ca/). In the framework of the proposed Decrypthon project, the SSE analysis of the entire human/mouse proteome (~60 000 proteins including splice variants and the human or mouse specific proteins) will involve a pipeline of processes starting with homology identification, multiple sequence alignment, structural and functional subfamily classification, orthology/paralogy analysis and phylogenetic reconstruction. We will take advantage of the previous developments performed on the Decrypthon grid, notably those concerning the MACSIMS (Multiple Alignment of Complete Sequence Information Management System) functional annotation and new protocols will be developed including PSI-Blast searches to detect distantly related proteins, recent multiple alignment algorithms implementation and phylogenetic tree algorithms. Protocols ensuring automated updating and storage in a relational database, hosted by the Decrypthon, will be developed.
The results will be combined with the data from the transcriptomal analysis performed in vivo. This complementary approach is expected to help us to identify and characterise the transcriptional networks involved in muscle development, specification, regeneration and myogenic progression. In vivo functional validation will be done using mouse molecular genetics and expertise in muscle biology in the laboratory of F. Relaix.
06684228e0edd56d70ba31604aa47ae3da15e2bd
R
0
1320
1921
1821
2007-11-19T12:23:53Z
Wraff
5
/* Documentation et Tutorials */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
7f633c9b9e46418921f86c81a9813178e6fe92a3
RRG english
0
1364
1924
2007-11-20T13:47:07Z
Wraff
5
New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap...
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
8ce23a489c3dace2bc3059b964ccb7da472e45fd
1925
1924
2007-11-20T13:47:40Z
Wraff
5
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
voir cette page en Francais : [[RRG]]
179e97cd17f63ace5c6572007f4375e52059033e
1927
1925
2007-11-20T13:48:57Z
Wraff
5
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
voir cette page en Francais : [[RReportGenerator]]
7fd81faeba4efddd5df53ceab043fdf87bd2d183
1928
1927
2007-11-20T13:49:33Z
Wraff
5
Removing all content from page
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
RReportGenerator english
0
1365
1930
2007-11-20T13:50:02Z
Wraff
5
New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap...
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
voir cette page en Francais : [[RReportGenerator]]
7fd81faeba4efddd5df53ceab043fdf87bd2d183
RReportGenerator English
0
1366
1932
2007-11-20T13:50:39Z
Wraff
5
New page: [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a grap...
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
voir cette page en Francais : [[RReportGenerator]]
7fd81faeba4efddd5df53ceab043fdf87bd2d183
RReportGenerator english
0
1365
1933
1930
2007-11-20T13:51:04Z
Wraff
5
Removing all content from page
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
RReportGenerator English
0
1366
1934
1932
2007-11-20T13:51:53Z
Wraff
5
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI).
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
<br>... voir cette page en Francais : [[RReportGenerator]]
cdfbfc9a7dd87cdff2cbf65115ff57034919b726
1935
1934
2007-11-20T14:01:58Z
Wraff
5
wikitext
text/x-wiki
[http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Scenarios are written in the R and Latex language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios for resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]. <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
Reference: <br>The program is published in : Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. Bioinformatics 2007, in press
<br>... voir cette page en Francais : [[RReportGenerator]]
afa69096350b065704a387e6695027d59ae82dc3
BIRD
0
1313
1936
1835
2007-11-22T14:56:55Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website|site web]] de Hoan
le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
565a1927341ddb7410c8335613a6b40d85c9abb8
1937
1936
2007-11-22T14:57:15Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website|site web]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
04a156cc47b602818b68b19c09ea56438d1ff190
1938
1937
2007-11-22T14:58:05Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website|site web]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
Bird est utilisé par [[Gscope]]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
6300c8c0ff0111241a6d3f2ef6b89d9f88faedf7
1940
1938
2007-11-22T15:00:57Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
Bird est utilisé par [[Gscope]]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
2e89f806ccb5b1606c04c9d7f49b446429d1c986
1941
1940
2007-11-22T15:01:20Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
7b822fcb92420cabe6a854858bb76ae605dd35b9
1942
1941
2007-11-22T15:03:47Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
a236c7b8ffc8f6941150ac22139124add180734d
1943
1942
2007-11-22T15:04:48Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==BIRD Miner=
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
f802f0793218d625b7474b467a9bd2cbf5881784
1944
1943
2007-11-22T15:05:02Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==BIRD Miner=
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
d8c58d3ebd78d85d2808528beb2b45013afa672a
1945
1944
2007-11-22T15:05:20Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==BIRD==
Le [[Bird Website]] de Hoan
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
e891ae6ecfee35a360b5372b80e3912a9ea01246
Bird Website
0
1367
1939
2007-11-22T14:59:13Z
Nguyen
15
New page: THe Bird Website is under development
wikitext
text/x-wiki
THe Bird Website is under development
46542227a93d0392196c9fac1f83e122e9b33c77
IBISSA
0
1361
1946
1913
2007-11-27T09:09:10Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenetre de commande Star (Star3,5,6,7 ou 8 -activée XWindows-):
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
d096a372eddd6dd9941e1a9ef6808f1d69a82571
1947
1946
2007-11-27T09:10:52Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
NB: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
832d644cb690f1158259b3482f8cbbedba4e8286
1948
1947
2007-11-27T09:11:05Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
NB: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
c4689d4e0e98e434d7688ecb51ad4066a9c99009
1949
1948
2007-11-27T09:11:23Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
NB: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
e5ff4fb1dabd407fdeae6170abb158d131ff93a1
1950
1949
2007-11-27T09:13:16Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
NB: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
90cf6f46560f2e43c9619cd91292f53f007ed2d3
1951
1950
2007-11-27T09:14:39Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
NB: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
3373f552ba9bc58e3232ed3320945a9e8823e90c
1952
1951
2007-11-27T09:16:10Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
aa30bf3af95563c0d83ce7345ccf936352f85909
1953
1952
2007-11-28T16:40:08Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
Collection Reader
...
=Types Existants=
Sequence
Parameters
4805c5c43ae12e75909c54da5543f63b260e73b4
1954
1953
2007-11-28T16:42:41Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
Collection Reader
...
=Types Existants=
Sequence
<br>
Parameters
<br>
0f33adc673811d13adb18052005d2e3473a28d9b
1955
1954
2007-11-28T16:43:23Z
Candel
10
/* Components disponibles */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Sequence
<br>
Parameters
<br>
c805845b0eb4193159727a8d671f1890bfadb342
1956
1955
2007-11-28T16:47:44Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Sequence
<br>
AlgoName (String)<br>
ParaName (String)<br>
ParaValue (String)<br>
<br>
Parameters
<br>
FullSequences (String)<br>
ID (String)<br>
Comments (String)<br>
Code (String)<br>
Kind (String)<br>
<br>
2d0dc146545007a3f39672c0cca54c403302ad84
1957
1956
2007-11-28T16:51:22Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Parameters
<br>
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br>
ParaName (String, Nom du paramètre lui-même)<br>
ParaValue (String, Valeur du paramètre)<br>
<br>
Sequence
<br>
FullSequences (String, la séquence formatée) <br>
ID (String, l'identifiant de la séquence)<br>
Comments (String, les commentaires associés à cette séquence)<br>
Code (String, le code de cette séquence)<br>
Kind (String, le type de séquence -rna, dna, ou proteic-)<br>
<br>
f14194dfd59950a0bf7b6efba529b2d748fbef8d
1958
1957
2007-11-28T16:52:09Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
[[Parameters]]<br>
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br>
ParaName (String, Nom du paramètre lui-même)<br>
ParaValue (String, Valeur du paramètre)<br>
<br>
[[Sequence]]<br>
FullSequences (String, la séquence formatée) <br>
ID (String, l'identifiant de la séquence)<br>
Comments (String, les commentaires associés à cette séquence)<br>
Code (String, le code de cette séquence)<br>
Kind (String, le type de séquence -rna, dna, ou proteic-)<br>
<br>
37a44e78014815f93e3f4a01f2ad53a01a033ebf
1959
1958
2007-11-28T16:52:32Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Parameters<br>
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)<br>
ParaName (String, Nom du paramètre lui-même)<br>
ParaValue (String, Valeur du paramètre)<br>
<br>
Sequence<br>
FullSequences (String, la séquence formatée) <br>
ID (String, l'identifiant de la séquence)<br>
Comments (String, les commentaires associés à cette séquence)<br>
Code (String, le code de cette séquence)<br>
Kind (String, le type de séquence -rna, dna, ou proteic-)<br>
<br>
2e83bd8f643985c1fd5109acb40689fe42be2454
1960
1959
2007-11-29T08:07:36Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
<pre>Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
c317ff54c862222bf8f33f4854239d78cf2357f1
1961
1960
2007-11-29T08:07:57Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
3fd91c96b1aec3e6073e7db1be1067ff6b42f6c9
1962
1961
2007-11-29T08:18:12Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser, procurez vous les descriptors auprès de Sophie.<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
720e992e0fac5c0e2b71055a7d46099339250758
1963
1962
2007-11-29T08:19:41Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie.<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
5faf20a11e8a4c9d2c382f47012b8b3149530fa9
1964
1963
2007-11-29T08:31:31Z
Candel
10
/* sources */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie.<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
aba08035ca9c5b91adc898c94f31ca5f25e0befa
1965
1964
2007-11-29T08:34:05Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [umr:// candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
c97b178323378ecdbddf422516842a2e98448061
1966
1965
2007-11-29T08:34:19Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [uml:// candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
e94d3fe41ab9db8c4f1a680da4ee2f88b645021d
1967
1966
2007-11-29T08:34:28Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [uri:// candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
3bd5409645510bff8ad84073768116413dc1506d
1968
1967
2007-11-29T08:34:39Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http:// candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
75fdd9096680347406d167f49af92644ac57159e
1969
1968
2007-11-29T08:34:51Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [HTTP://candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
983d9e763a5075a05c063413b7c2a602a605fa2d
1970
1969
2007-11-29T08:35:00Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Candel]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
6d3de46c3eb11de346430542a43db0228707d1d0
1977
1970
2007-11-29T09:22:10Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://candel@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
87ed0141f8567acc3e34abc34c8859b502ddafde
1978
1977
2007-11-29T09:22:34Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [http://siguenza@u-strasbg.fr Sophie].<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
63ec3ea099140b6f5314d6ab99617eb70fb415bf
1979
1978
2007-11-29T09:39:44Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à Sophie (siguenza@igbmc.u-strasbg.fr)<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
c8e447302557401a33a2cc5ea0218db12bf44d6c
1980
1979
2007-11-29T09:45:08Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
60a442fab854c7bf4423672fe304ed3fe51264a4
1981
1980
2007-11-29T09:47:55Z
Candel
10
/* Créer un projet IBISSA sur Star */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
054b793ad9164b9f9abd8906effced19254a51e3
1982
1981
2007-11-29T09:48:14Z
Candel
10
/* Créer un projet IBISSA sur Star */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br>
''>eclipse-uima''
<br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br>
''Window>>Open Perspective>>Java''
<br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
36c0bee962fad5220eb182c5d20d69b7f22e5d42
Membres du LBGI
0
1333
1971
1840
2007-11-29T09:18:41Z
Candel
10
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
cd48e4d1335ccc08ba418786a1929a0d167a7bc9
1972
1971
2007-11-29T09:19:08Z
Candel
10
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Candel]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
eaecdff06facef166d07326457858cc92a086df3
1973
1972
2007-11-29T09:20:42Z
Candel
10
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Candel]] (IE 1B CDD)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
307629b130867a4eae855bf38686cb43f868bbc1
1976
1973
2007-11-29T09:21:40Z
Candel
10
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
cd48e4d1335ccc08ba418786a1929a0d167a7bc9
Sophie Siguenza
0
1368
1974
2007-11-29T09:20:50Z
Candel
10
New page: Les présentations:<br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007 <br> [http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISS...
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V3.pdf Guide de Survie IBISSA] Octobre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
d8ee694d17c06c27d07003c4551b4489c0ec2036
Sophie Candel
0
1337
1975
1907
2007-11-29T09:21:21Z
Candel
10
Removing all content from page
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
IBISSA
0
1361
1983
1982
2007-11-29T09:49:07Z
Candel
10
/* Créer un projet IBISSA sur Star */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br><br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
de9d26ea74a8b7e6794d0bd407bf6be3d159a24f
1984
1983
2007-11-29T09:49:31Z
Candel
10
/* Créer un projet IBISSA sur Star */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
a1730d3be3cf5c69e7c18fbd3a8543224fea7b00
1998
1984
2007-12-04T07:17:35Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br>
<pre>
le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
</pre>
<br>
Pour plus de précision veuillez vous référer au Guide UIMA, chapitre 3.8
17e0dc74ac36ff7525122bd62add922ae956d6b8
1999
1998
2007-12-04T07:18:23Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br>
le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br>
le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br>
le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br>
<br>
Pour plus de précision veuillez vous référer au Guide UIMA, chapitre 3.8
c2f8ef1fce5ca67cfad0ceb2d79a2ea9765c2fbd
2000
1999
2007-12-04T07:29:21Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br>
le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br>
le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br>
le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br>
<br>
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/ Guide UIMA], chapitre 3.8
8fd680d0da5003a5b355d3c49b17346395c37fe2
2001
2000
2007-12-04T07:30:09Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation: <br>
le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.<br>
le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.<br>
le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.<br>
<br>
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
666c3dea2cfdc56abc348e2350824a3e3ee15b4d
2002
2001
2007-12-04T07:41:40Z
Gagniere
3
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
<pre>
Parameters
AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
ParaName (String, Nom du paramètre lui-même)
ParaValue (String, Valeur du paramètre)
Sequence
FullSequences (String, la séquence formatée)
ID (String, l'identifiant de la séquence)
Comments (String, les commentaires associés à cette séquence)
Code (String, le code de cette séquence)
Kind (String, le type de séquence -rna, dna, ou proteic-)
</pre>
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
a53e92d8e28a662a09cfcd9bfbfab02600b5b9d2
2003
2002
2007-12-04T07:44:01Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* Parameters
** AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
** ParaName (String, Nom du paramètre lui-même)
** ParaValue (String, Valeur du paramètre)
* Sequence
** FullSequences (String, la séquence formatée)
** ID (String, l'identifiant de la séquence)
** Comments (String, les commentaires associés à cette séquence)
** Code (String, le code de cette séquence)
** Kind (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
cddc594c347c7323b1f618128887a03a02400bc3
2004
2003
2007-12-04T07:44:52Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* Parameters
** AlgoName (String, Nom de l'algorithme auquel ce paramètre s'applique)
** ParaName (String, Nom du paramètre lui-même)
** ParaValue (String, Valeur du paramètre)
* Sequence
** FullSequence (String, la séquence formatée)
** ID (String, l'identifiant de la séquence)
** Comments (String, les commentaires associés à cette séquence)
** Code (String, le code de cette séquence)
** Kind (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
6e0b364eeeddd99a497e6882b94a34666ba99663
2005
2004
2007-12-04T07:47:36Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le PEAR Generation Wizard: Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le PEAR Installer: Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le PEAR Merger: il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
2eda09f3839e4fb168434b0446f70db75ba430a5
2006
2005
2007-12-04T07:47:58Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un components UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
d844f307b0d69bf3ddf85157bf5f63498ea13d13
2007
2006
2007-12-04T07:53:29Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, nous souhaitons mettre à disposition les components générés sous la forme de fichiers PEARs afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
206187a1a1fadc51a28b5c909fcc56a68976ccb6
2008
2007
2007-12-04T08:14:39Z
Candel
10
/* PEAR: Processing Engine ARchiver */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
b0e7ba507b3898f2074ea2e49a09aec7ebd5a5a1
2009
2008
2007-12-04T09:01:06Z
Candel
10
/* Types Existants */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
6fd4730dc882d83a67e0a2b3c947827675147117
2010
2009
2007-12-04T09:02:18Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par Frédéric Plewniak et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
43c85e46c9da6fc21e750fc370218d9f150b04ec
2014
2010
2007-12-06T15:52:49Z
Candel
10
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
aff2e9ea77a1fe2d8e22207ccb12aa11682d09c7
2015
2014
2007-12-06T15:55:34Z
Candel
10
/* Sources */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA],
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
5dd5825abab61746aec23e1b3804c4aeae1f4619
2016
2015
2007-12-06T15:56:51Z
Candel
10
/* Sources */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie à UIMA dans le cadre d'IBISSA],
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
813ad1984f6f79949efce04dd4dad9ce64789197
2017
2016
2007-12-06T15:57:26Z
Candel
10
/* Sources */
wikitext
text/x-wiki
IBISSA : Intelligent BioInformatics Solutions Software Architecture
Est un projet initié par [[Frédéric Plewniak]] et [[Sophie Siguenza]] basé sur [http://incubator.apache.org/uima/ UIMA] pour optimiser le développement en bioinformatique.
=Créer un projet IBISSA sur Star=
Désormais, Eclipse et UIMA sont installés en local sur les Star.
<br>
Rappel: Utilisez Star3,5,6,7 ou 8.
<br>
Pour lancer Eclipse il faut taper depuis une fenêtre de commande Star activée XWindows:
<br><br>
''>eclipse-uima''
<br><br>
Si c'est la première fois que vous vous connectez, choisissez un espace de travail qui vous est propre.
<br>
Vous pouvez fermer la fenêtre de bienvenue d'Eclipse et activer la vue Java.
<br><br>
''Window>>Open Perspective>>Java''
<br><br>
Une fois que c'est fait vous devez paramétrer la variable UIMA_HOME:
<br><br>
''Window>>Preference>>Java>>Build Path>> Classpath Variables>> New''
<br>
''Name: UIMA_HOME''<br>
''Value: /local/ibissa/apache-uima''<br>
<br><br>
Vous devez ensuite importer le projet "examples" dans Eclipse:
<br><br>
''File>>Import>>General>>Existing Projects into Workspace>>''
<br><br>
Sélectionnez le dossier ''/local/ibissa/apache-uima/examples''
<br>
Attention: il faut activer la copie du projet sur votre espace de travail.
<br>
<br>
Amusez-vous bien ;o)
=Sources=
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie à UIMA dans le cadre d'IBISSA]
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Une petite présentation].
<br>
=Types System Existants=
Dans le cadre de BALLAST, des Types ont déjà été définis.<br>
Vous pouvez et êtes encouragés à les utiliser, en plus des Types pré définis dans UIMA.<br>
Si vous souhaitez les utiliser ou les modifier (exemple: ajouter un Feature), demandez à [mailto:siguenza@igbmc.u-strasbg.fr Sophie]<br>
* '''Parameters'''
** '''AlgoName''' (String, Nom de l'algorithme auquel ce paramètre s'applique)
** '''ParaName'''(String, Nom du paramètre lui-même)
** '''ParaValue''' (String, Valeur du paramètre)
* '''Sequence'''
** '''FullSequence''' (String, la séquence formatée)
** '''ID''' (String, l'identifiant de la séquence)
** '''Comments''' (String, les commentaires associés à cette séquence)
** '''Code''' (String, le code de cette séquence)
** '''Kind''' (String, le type de séquence -rna, dna, ou proteic-)
=PEAR: Processing Engine ARchiver=
Un fichier PEAR est un package UIMA standard pour l'échange, le control, le test, la mise à jour, l'invocation,,, des components UIMA.<br>
Dans le cadre du projet IBISSA, il est possible que l'on choisisse cette méthode pour mettre à disposition les components générés afin d'en faciliter le travail d'équipe.<br>
<br>
Une série d'outils est proposée avec le SDK UIMA pour faciliter son utilisation:
* le '''PEAR Generation Wizard''': Permet de générer automatiquement le fichier PEAR à partir d'une architecture de fichiers que vous aurez préalablement créé à l'aide d'Eclipse et des plugins UIMA.
* le '''PEAR Installer''': Il permet d'installer un component UIMA dans un projet qui vous est propre à partir d'un fichier PEAR existant.
* le '''PEAR Merger''': il s'agit d'un outil en ligne de commande (Linux ou Windows) qui permet de fusionner plusieurs components sous forme de fichiers PEARs afin de faire un seul fichier PEAR contenant un Aggregate Analysis Engine.
Pour plus de précisions veuillez vous référer au [http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide UIMA], chapitre 3.8 UIMA PEAR Tools
=Components disponibles=
Analysis Engine
<br>
Collection Reader
<br>
...
26b4fc7ce8c582d288f7d46e7cd394410970e286
RReportGenerator English
0
1366
1985
1935
2007-11-29T13:32:12Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the information available with the analysis scenarios available through the www-library in RReportGenerator for further details.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
Reference: <br>The program is published in :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press]
<br>... voir cette page en Francais : [[RReportGenerator]]
6e1cb7c0740bf015498dde594da738742cbd74a7
1987
1985
2007-11-29T13:41:04Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis in a highly user-friendly way via a graphical user inferface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R] and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program very difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios resuming a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the information available with the analysis scenarios available through the www-library in RReportGenerator for further details.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexpereienced users to run routine analysis tasks.
Reference: <br>The program is published in :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press]
<br>... voir cette page en Francais : [[RReportGenerator]]
5a54187ead68860c319a6115739d17b59af53a3d
RReportGenerator
0
1342
1986
1931
2007-11-29T13:38:58Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com]. Il existe aussi un scenario d'analyse pour des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantuillons sur la plaque courante.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press]
5e6ca973fc9860b9909bd12eed82594ac47689d6
2012
1986
2007-12-04T19:15:06Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme assez difficile à utiliser aux non statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, in press]
9e818d6948cf32597c4f249b74e5470fc89e72dd
ALEXSYS
0
1369
1988
2007-11-30T08:50:43Z
Aniba
16
New page: == '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' == The last decade has provi...
wikitext
text/x-wiki
== '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' ==
The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms.
As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role.
The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318).
There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional).
The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution.
An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project.
In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems.
9e5cb650c6a2a504ebba03969639b343ac4693bd
1990
1988
2007-11-30T09:29:55Z
Aniba
16
/* '''ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' */
wikitext
text/x-wiki
[[Image:Alexsys.png]]
== ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' ==
The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms.
As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role.
The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318).
There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional).
The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution.
An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project.
In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems.
[[Media:[[Media:Example.ogg]]]]
193fe8ee4b1be79e6079011595f5d0d1778cb639
1994
1990
2007-12-02T11:41:02Z
Aniba
16
/* ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' */
wikitext
text/x-wiki
[[Image:Alexsys.png]]
== ''' ALEXSYS (ALignment EXpert SYStem) : Development of a new expert system for the creation, analysis and exploitation of biological sequence alignments''' ==
The last decade has provided access to a large amount of data resulting from high throughput genomic technologies, such as transcriptomics, proteomics or interactomics. This wealth of data now means that it is possible to perform detailed studies of the complex molecular networks implicated in the essential processes of life. A critical step in these studies is the comprehension of the evolutionary processes involved (duplication, loss, recombination), since they determine the sequence, structure and function of macromolecules, and finally, the biological complexity of organisms.
As a consequence, comparative sequence analyses and phylogenetic inferences are increasingly important in biological systems studies and are indispensable in analyses of promoters, transcriptomes, proteomes and interactomes. Nevertheless, all these approaches are very sensitive to the algorithms used to compare the sequences, to reconstruct the evolutionary history of the genes, to identify important genetic events and to understand their consequences. In this context, the developments related to the construction and the effective analysis of a multiple alignment of complete sequences have, and will continue to have, a major effect on research connecting evolutionary models, adaptation or co-evolution to the comprehension of the networks in which the genes and their products play a fundamental role.
The objective of this PhD project is to develop an integrated expert system to test, evaluate and optimize all the stages of the construction and the analysis of a multiple sequence alignment. The new system will be validated within the context of existing benchmark cases and the ‘International Regulome Consortium' project whose goal is to identify and characterize the complete set of transcription factors and their `regulome' (complex regulatory networks) within several murine stem cells. The work will rely on the developments already achieved in the laboratory related to the construction and the analysis of multiple alignments (Plewniak at al, 2003 Nucleic Acids Res 31,3829-3832; Thompson et al, 2006 BMC Bioinformatics 23,7-318).
There exists today a large number of multiple alignment programs, based on very diverse algorithms. However, our recent studies have shown that none of these algorithms is able to provide a high quality multiple alignment for all possible conditions. Indeed, this work has established that the nature and the variability of the problems to be treated are extremely complex (errors in the sequences; divergent sequence lengths, modular organization, speed of evolution; presence of repeat sequences, transmembrane regions, circular permuations, etc) and that taking into account these various levels of complexity is essential to the realization of a multiple alignment of complete sequences (MACS) which is both accurate and reliable. It is clearly necessary to understand, not only the nature of the provided sequences but also, the strengths and weaknesses of the algorithms used, in order to obtain a high quality result in all alignment cases. Consequently, multiple sequence alignment methods must now evolve from a single isolated algorithm, towards an expert system, based on the co-operative application of different and complementary algorithms with a judicious use of additional knowledge (genomic, structural or functional).
The expert system will incorporate diverse components, covering aspects of genomic and protein data mining, validation and integration of structural/functional data, integrated with a set of different algorithms ensuring the construction, the refinement, the analysis and the exploitation of multiple sequence alignments. The combination of these elements in an entirely automated platform will be necessary and will be achieved using object oriented technologies. A suitable integration will also require the development of dependency models and standard ontologies, in order to make the transfer of information between the various modules as transparent as possible. The modular design will also facilitate the incorporation of new algorithms and will allow its future evolution.
An important element in the development of this system will be its ability to evaluate each module, not only at the level of its efficiency and its accuracy, but also depending on the type and the complexity of the biological data provided. The effective optimization of such a software network is primarily a process of investigation, which aimed at an in-depth comprehension of each module and its interactions with the various biological data types. This approach will require the incorporation of combinatorial, statistical and algorithmic concepts, with a continual biological validation of the results. This biological validation will be based on (i) `benchmarks' already developed in the laboratory (Thompson et al, 2005 Proteins 61:127 - 36) and (ii) a high throughput application concerning the study of the complete set of transcription factors, in collaboration with Dr. M. Andrade (Ottawa University, Canada), in the context of the International Regulome Consortium project.
In the long term, this expert system should allow the construction, the validation, the visualization and the interpretation of a high quality MACS, a fundamental tool in many fields of molecular biology and essential to the comprehension of complex biological systems.
8f42c95c5cd00bbf9726f12c3a1209e131e8eca0
File:Alexsys.png
6
1370
1989
2007-11-30T09:26:44Z
Aniba
16
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Dbgs
0
1356
1991
1879
2007-11-30T15:39:30Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
==Abréviations==
DBGS, MEM, LBGI, ... voir [[Abréviations]]
==Réunion Labo==
==Links==
See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site]
57e84f428f71f1f22b2927121600eb7f44496093
1992
1991
2007-11-30T15:41:21Z
Ripp
1
wikitext
text/x-wiki
DBGS : Département de Biologie et de Génomique Structurales
de l'[[IGBMC]] : Institut de Génétique et de Biologie Moléculaire et Cellulaire
Il est composé de plus de 120 personnes réparties en 12 [[Equipes du DBGS|Equipes]]
Il est dirigé par [[Patrick Schultz]]
==Abréviations==
DBGS, MEM, LBGI, ... voir [[Abréviations]]
==Links==
See the [http://alnitak.u-strasbg.fr/dbgs DBGS web site]
107288adecbe65f943b033f8f01a76d258208f1a
Luc Moulinier
0
1371
1993
2007-11-30T16:22:27Z
Moumou
17
New page: Bonjour c'est moi ! J'ai ete engendre par Laetitia et ca a ete un dur travail .....
wikitext
text/x-wiki
Bonjour c'est moi ! J'ai ete engendre par Laetitia et ca a ete un dur travail .....
6479248064673d28ccb0576ba777b66cc68f9c88
Sophie Siguenza
0
1368
1995
1974
2007-12-03T15:37:39Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
29e3555f14e6c7625dd21f1fb7cb5ccf79c0eb93
1996
1995
2007-12-03T15:40:01Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, NOUVEAU: 3.8 UIMA PEAR Tools
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
f8144093880bd1519de699c18e85a2dcb8643f5a
1997
1996
2007-12-03T15:40:22Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, Nouveau paragraphe: 3.8 UIMA PEAR Tools
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
eddf43af131edddb8c2e5e93612174a422549ec8
2013
1997
2007-12-06T15:52:05Z
Candel
10
wikitext
text/x-wiki
Les présentations:<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/UIMAPresentationSophie.ppt Présentation UIMA] du 25 Avril 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/IBISSA-28Sep07.ppt Présentation IBISSA] du 28 Septembre 2007
<br>
[http://www-bio3d-igbmc.u-strasbg.fr/~candel/GuideSurvieUIMA_V4.pdf Guide de Survie IBISSA] Décembre 2007, Nouveau paragraphe: 3.8 UIMA PEAR Tools
<br>
<br>
Lien vers le projet [http://alnitak.u-strasbg.fr/wikili/index.php/IBISSA IBISSA]
<br>
<br>
Quelques liens utiles pour UIMA:
<br>
SDK UIMA
[http://incubator.apache.org/uima/ UIMA chez Apache!!! ]
[http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/index.html La documentation d'UIMA v2.2.0]
[http://uima-framework.sourceforge.net/ Les sources d'UIMA]
[http://incubator.apache.org/uima/javadoc.html La javadoc d'UIMA]
[http://uima.lti.cs.cmu.edu:8080/UCR/Welcome.do Quelques Composants UIMA en prêt à porter...ou presque]
Et bien sûr, si vous voulez installer UIMA:
[http://java.sun.com/javase/downloads/index.jsp Télécharger java j2e]
[http://www.eclipse.org/downloads/ Télécharger Eclipse]
[http://incubator.apache.org/uima/downloads.html Télécharger UIMA SDK]
[http://www.alphaworks.ibm.com/tech/uima/forum Forum UIMA]
<br>Bon travail!!! ;o)
171c749472da26163894bf4b5c5f7bb68e891f19
R
0
1320
2011
1921
2007-12-04T19:09:27Z
Wraff
5
/* Librairies */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.5.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-5,7 et 8 ainsi que Alnitak (WR Sept 07).<br>
L’installation est accompagnée d’une collection de >120 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.5.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
195d8ad3c95b6f3f56bd7cfb8836ad32a29284e8
Unix
0
1312
2018
1735
2007-12-10T10:03:10Z
Dkieffer
2
/* Manipulation des fichiers et des répertoires */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|which nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst qui pointe vers le contenu de nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|id
|Donne des informations sur l'identité de l'utilisateur courant.
|-
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://www-gtr.iutv.univ-paris13.fr/Cours/Mat/Systeme/TDTP2003/tp03.html un TP de base explicite]
=sources=
Initiation à la bioinformatique O'Reilly
e56192f6bc5dc2898e4cc6bfa574adc00a6f66fd
Cluspack
0
1353
2019
1820
2007-12-11T10:00:19Z
Wraff
5
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br>
Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
En ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
'''Attention''' : cluspack marche seulement sur des serveurs "star" et plus sur beaufort !!
dff219779fb349ca8cc3fbb2525f16c2865a765d
Fed
0
1286
2020
1732
2008-01-01T13:52:37Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
5de8517c2dab787ea1e4d69c42689030c33f1e22
2021
2020
2008-01-01T13:57:25Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* people
* worpackages
* components
* centres
and
* a Gallery of documents
and
* Thematics (or Projects)
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then sspecially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
247776226964e7b70b760d1fdf1daedd2e165b7a
2022
2021
2008-01-01T14:02:37Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* Teams
** people
** workpackages
** components
** centres
* Data
** within a Gallery of documents
** or in a Relational Database
* Thematics (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
06ff40c4c1c406488b81ae321ac73b9feea31e41
2023
2022
2008-01-01T14:04:19Z
Ripp
1
wikitext
text/x-wiki
Fed : '''Fe'''derating '''d'''ata
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
a60ebf38e1e17ed3bd9b5069661905363e329902
2024
2023
2008-01-01T14:21:38Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
f3402b6f3485ddf27478ba10c180f10509cd0fe5
2025
2024
2008-01-01T14:24:12Z
Ripp
1
wikitext
text/x-wiki
== '''Fed''' : '''Fe'''derating '''d'''ata ==
written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
a99ad5715b23d34959c84a2ca16d7c498fc937fb
2026
2025
2008-01-01T14:25:00Z
Ripp
1
wikitext
text/x-wiki
== '''Fed''' : '''Fe'''derating '''d'''ata == written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
15117585bdbed3dd57820f40abe0b90670ab2fa6
2027
2026
2008-01-01T14:26:02Z
Ripp
1
wikitext
text/x-wiki
=='''Fed''' : '''Fe'''derating '''d'''ata==
written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
77823219dfa1ecd4700e231439e823b75eff5a7e
2028
2027
2008-01-01T14:26:54Z
Ripp
1
wikitext
text/x-wiki
='''Fed''' : '''Fe'''derating '''d'''ata=
written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
8bb3b01b16a00e131ca2573d97abbb220bad4db6
2029
2028
2008-01-01T14:27:22Z
Ripp
1
wikitext
text/x-wiki
==='''Fed''' : '''Fe'''derating '''d'''ata===
written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
8147ed6fa1d6a8174f22ede40314b783566328ab
2030
2029
2008-01-01T14:28:24Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata written by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
036c0a6f8e2ef5f1dc580c5f920b28e257eb26d7
2031
2030
2008-01-01T14:29:47Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
19f32b9e1d5528d29899dfd032491c616acae5d2
Main Page
0
1279
2032
1807
2008-01-01T14:38:42Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Pour une liste plus à jour voir [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Les Thématiques du BLGI] et visitez le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
e55de04a597dcd2f0100a89ba79019b18648676a
Main Page
0
1279
2033
2032
2008-01-01T14:40:39Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du BLGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
83e3137a28a72ecad279e14dd2be38f97d5efaeb
2034
2033
2008-01-01T14:41:16Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
b3418bc511794ea256da8c119f3a1602b485acaa
Abbreviations
0
1359
2035
1887
2008-01-02T13:16:16Z
Ripp
1
wikitext
text/x-wiki
<pre>
BIPS BioInformatic Platform Strasbourg
CIMC Catalyse et Inhibition : Méthodologie Cristallographique
DBGS Département de Biologie et de Génomique Structurales
LBGI Laboratoire de Bioinformatique et de Génomique Structurales
LBCMM BioCristallographie et Modélisation Moléculaire
LEIG Expression de l'Information Génétique
MEM Microscopie Electronique Moleculaire
MM Modelisation Moléculaire
PBGS Plateforme Biologie et Génomique Structurales
RMNB Résonnance Magnétique Nucléaire Biomoléculaire
SFPC Structure and Function of Protein Complexes
SNR Steroid Nuclear Receptor
SRC Signalisations et Réponses Cellulaires
Alexsys Alignment Expert System
CGHNR Comparative Genomics on Human Nuclear Receptors
EvolHHuPro Evolution Histories of Human Proteome
IBISSA Intelligent Bioinformatics Solution Softwaare Achitecture
MyoNet Myogenesys Network
</pre>
f1714f842a5aaece8699e8abd14af2e4a310b8ce
Fed
0
1286
2036
2031
2008-01-02T13:21:26Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
a0a26214efe34dfc30117607947fb7f4c1664f45
Fed Web Architecture
0
1372
2037
2008-01-02T13:29:05Z
Ripp
1
New page: ==Main purpose of Fed== [[Fed]] allows to manage through a Web Interface * '''Teams''' ** people ** workpackages ** components ** centres * '''Data''' ** within a Gallery of documents ** o...
wikitext
text/x-wiki
==Main purpose of Fed==
[[Fed]] allows to manage through a Web Interface
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
==General Organisation==
The most important is to distinguish
* the '''data'''
** in the Relational Database
** in Galleries
** in the Website
* the '''Web Interface'''
** Menu
** Links
** Special pages
** Display tools
e07f18882f9048bab2a422d6f1709b5c5845918c
2038
2037
2008-01-02T13:30:39Z
Ripp
1
wikitext
text/x-wiki
==Main purpose of Fed==
[[Fed]] allows to manage through a Web Interface
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
==General Organisation==
The most important is to distinguish
* the '''data'''
** in the Relational Database
** in Galleries
** in the Website
* the '''Web Interface'''
** Menu
** Links
** Special pages
** Navigation tools
*** within the menus
*** within the galleries
ab2d09135f93cb9b7ddbc3e50d346b7881c943f1
2039
2038
2008-01-02T13:32:00Z
Ripp
1
wikitext
text/x-wiki
==Main purpose of Fed==
[[Fed]] allows to manage through a Web Interface
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
==General Organisation==
The most important is to distinguish
* the '''Data'''
** in the Relational Database
** in Galleries
** in the Website
* the '''Web Interface'''
** Menu
** Links
** Special pages
** Navigation tools
*** within the menus
*** within the galleries
643b2e9b4c52addd849d9470dfb58c65136afd4a
Yannick-Noël Anno
0
1336
2040
1904
2008-01-08T21:01:29Z
Yannick-Noel
6
/* Utilitaires */
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
* 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
81bbacca32fd727db90faa090b0aa201ba0b0030
2041
2040
2008-01-08T21:02:39Z
Yannick-Noel
6
wikitext
text/x-wiki
== Parcours ==
* 1979-1979: Naissance, 3,250 kgs
* (...)
* 2000-2001: Maitrise de Biologie Cellulaire & Physiologie
* 2001-2005: Informaticien
* 2005-2007: Master Génomique Structurale & Bioinformatique (Stagiaire au LBGI d'octobre 2006 à juin 2007)
* 2007-2010: Doctorant ès "Promotologie" (Etude des promoteurs de gènes)
== Thèmatique de recherche ==
Localisation des sites de fixation de facteurs de transcription (TFBS)
== Utilitaires ==
488ab9e2631cec640babf79707b240c664768f49
Java
0
1293
2042
1899
2008-01-09T08:55:23Z
Dkieffer
2
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<?xml version="1.0" encoding="UTF-8" ?>
- <rsf>
- <rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
- <rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
[[Category:Programmation]]
45f02d6ced4bc3850b05f60abfd52da46d3b9e8a
Category:Programmation
14
1373
2043
2008-01-09T08:56:51Z
Dkieffer
2
New page: Articles relatifs au techniques de programmations du labo.
wikitext
text/x-wiki
Articles relatifs au techniques de programmations du labo.
339a41058bd664c584bf1d10265f4a67beb789c3
R
0
1320
2044
2011
2008-01-10T11:26:04Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.6.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
3ea9d8f634e1a51445a512a0b0babddc0056e944
2045
2044
2008-01-10T11:35:03Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R".
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.6.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
7e3dc2dc7948bb7a7687481258c8c72fa4600b5e
2072
2045
2008-02-04T12:08:31Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.6.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
3db82c1412a443b37c26faedf272b49c4a70200d
2080
2072
2008-02-12T15:50:18Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.6.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jan 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.6.1 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
51774d3fc4b69ea8743050dda28a5771f92044da
Wolfgang Raffelsberger
0
1339
2046
1715
2008-01-11T12:21:28Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
see also my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]),
du Départment de Biologie et Génomique Structurales ([[DBGS]]),
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]),
Department of Structural Biology and Genomics ([[DBGS]]),
at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br>
Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining
e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr]
b6a1eea0ef04403d418b94c659129b5dfc1094d7
2071
2046
2008-02-04T11:20:40Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]),
Department of Structural Biology and Genomics ([[DBGS]]),
at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]),
du Départment de Biologie et Génomique Structurales ([[DBGS]]),
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br>
Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining
e-mail : [mailto:wolfgang.raffelsberger@igbmc.u-strasbg.fr wolfgang.raffelsberger@igbmc.u-strasbg.fr]
1c44a4cc638911df5a882dc2d24999d3f7d26cc5
File:Alexsys.jpg
6
1374
2047
2008-01-14T09:24:14Z
Aniba
16
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Alexsys2.png
6
1375
2048
2008-01-14T10:05:37Z
Aniba
16
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
User:Bedez
2
1376
2049
2008-01-17T19:13:06Z
Bedez
18
New page: Florence Bedez
wikitext
text/x-wiki
Florence Bedez
53ff1dc241a9b621c7fe0b821d519a164e439a51
Membres du LBGI
0
1333
2050
1976
2008-01-17T19:15:44Z
Bedez
18
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[User:bedez | Florence Bedez]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
82bee3ff57d3c0f56634ebb7c277979a4986cacd
User:Dkieffer
2
1305
2051
1628
2008-01-18T16:44:49Z
Dkieffer
2
/* liens */
wikitext
text/x-wiki
=Mon parcours au LBGI=
Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker.
Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker.
=Ingénieur chez Genclis=
Ingénieur d'étude depuis 2007 à Genclis Nancy.
=Travaux=
==Journal Club==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007]
=liens=
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.]
[https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.]
dff83e0cc6cdd1e4dd611facdf9c938b7e29f8a7
2052
2051
2008-01-18T16:45:59Z
Dkieffer
2
wikitext
text/x-wiki
=Mon parcours au LBGI=
Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker.
Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker.
=Ingénieur chez Genclis=
Ingénieur d'étude depuis 2007 à Genclis Nancy.
=Travaux=
==Journal Club==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007]
[https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Autres sur ma page confidentielle.]
=liens=
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.]
[https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.]
7bddfd90044ec1c0e584a1b6752483e36e82846b
2053
2052
2008-01-18T16:54:38Z
Dkieffer
2
/* Journal Club */
wikitext
text/x-wiki
=Mon parcours au LBGI=
Stagiaire 2006 en Master 2 bio-info de Strasbourg, encadré par Nicolas Wicker.
Doctorant depuis 2007 sous la direction d'Olivier Poch et encadré par Nicolas Wicker.
=Ingénieur chez Genclis=
Ingénieur d'étude depuis 2007 à Genclis Nancy.
=Travaux=
==Journal Club==
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_13_03_07/ Journal Club du 13 mars 2007]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/PublicDirectory/presentation/JC_18_12_07.pdf/ Journal Club du 18 décembre 2007]
[https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Autres sur ma page confidentielle.]
=liens=
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/ Mes pages pros.]
[https://alnitak.u-strasbg.fr/lbgiki/index.php?title=User:Dkieffer Ma page confidentielle.]
83438cfbe982974239caa3ba107f1f456836933f
RReportGenerator English
0
1366
2054
1987
2008-01-21T11:44:52Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user inferface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
<br>... voir cette page en Francais : [[RReportGenerator]]
89321a29f5f0d3a56efee3cd5b5b53fdc9aff8ba
2056
2054
2008-02-01T10:53:21Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user inferface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
e01cdaa7eb9219d1b5cd59208a71dd7d30a1b02d
RReportGenerator
0
1342
2055
2012
2008-01-21T11:48:49Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
38206620ffdb26a20652843d2fbdfc631635ebbf
BIRD
0
1313
2057
1945
2008-02-01T15:13:58Z
Nguyen
15
/* BIRD */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
Le [[Bird Website]] de Hoan
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
Le site [http://www.decrypthon.fr Decrypthon]
Bird ... sa [http://decrypthon:8080/bird/javadoc/index.html Javadoc]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
4c0d9bdf264aaf85953688072dc913824612a6e0
2058
2057
2008-02-01T15:17:19Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements. BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement. The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
web: [http://www.decrypthon.fr Decrypthon]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
98adf2b6b4f345702e571812503ebc746ce8c568
2059
2058
2008-02-01T15:21:39Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Web: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
: [http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
'''La suite est obsolète La suite est obsolète La suite est obsolète La suite est obsolète '''
Il se peut qu'il faille encore faire '''setbird''' avant de lancer gscope
La suite est à confirmer par un bon vieux '''[[oue]]'''
* les procédures qui font appel au web service :
** proc '''BirdGetFields''' {NM field1,field2} rend field1=fff field2=zzz
** proc '''BirdGet''' {NM field} rend simplement la valeur du champ
* proc '''Bird''' {Query {Format ""} {Out ""}} en exec sur nos machines qui ont Java
** [exec bird_explorer_ucsc $FichierQuery $OutFile format=$Format display=yes]
* proc '''BirdSendQueryAndGetFromUrl''' {Query {Url ""} {Options ""}}
** ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryEncode $Option
* proc '''BirdSendQueryUrlAndGetFromUrl''' {QueryUrl {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $QueryUrlEncode $Option
* proc '''BirdPostFileAndGetFromUrl''' {Filename {Url ""} {Options ""}}
** ::http::geturl ::http::geturl http://star4:8080/mybiodb/bsearch -query $PostEncode
789c0ce57f74c7e9989806cc3a1d66e1f4ccd5c1
2060
2059
2008-02-01T15:22:32Z
Nguyen
15
/* Gscope utilise BIRD */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Web: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
: [http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
61d7fd39727b5980546cc06fa44690aa351ae694
2061
2060
2008-02-01T15:27:40Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==BIRD Miner==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
67e301c846ffa5f4c5a0474c8c27604ec06ca80e
2062
2061
2008-02-01T15:37:34Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ca5e9bed105ac100059830ae3a3eb16c5ada0133
2063
2062
2008-02-01T15:39:12Z
Nguyen
15
/* BIRD-QL Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
…
WH PATTERN <function SequencePattern() >
WH PATTERN <function StructuralDistance()>
WH PATTERN <function …. ()
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
7baae5c6bf85fa8213f69e2c46e3bce5320acf93
2064
2063
2008-02-01T15:41:16Z
Nguyen
15
/* BIRD-QL Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
…
WH PATTERN <function SequencePattern() >
WH PATTERN <function StructuralDistance()>
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
e360c48cd6400d9a9f2b96cff11780d6c5c3ce8e
2065
2064
2008-02-01T15:43:13Z
Nguyen
15
/* BIRD-QL Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5777e57e81512ed7579868f2ec80412d02e94072
2066
2065
2008-02-01T15:44:11Z
Nguyen
15
/* BIRD-QL Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
3da6c2a9aa547a2a584cced49b9b81144d09603c
2067
2066
2008-02-01T15:45:35Z
Nguyen
15
/* BIRD-QL Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
adbd220569335448763cb185ac55880668a26c96
2068
2067
2008-02-01T15:48:47Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 to store the data and data analysis. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
e5c40ac848c4ec8d202077d7bac1bd1c9be68025
2069
2068
2008-02-01T15:54:36Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5535662c476a1cd4e09ae3c03ce0986f9ae84591
2070
2069
2008-02-01T15:55:06Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
4e54b3f2c4f41936e855dfde4d5e3d31cace68b7
2073
2070
2008-02-12T14:20:57Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen (CORIA 2008, Hermes Edition)]]
==What is BIRD System==
BIRD is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
04f816e86c0f9059cbca824af0ed074c886fc04b
2074
2073
2008-02-12T14:23:02Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
d2c2a3254291d207f7d6123caa38af8962b926e7
2075
2074
2008-02-12T15:20:55Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Biological Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
b9263122b05a8f1577bbedfd5561734527968fa3
2076
2075
2008-02-12T15:30:23Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRD-QL Biological Query Language ==
BIRD is driven with a new query language (QL) and by a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...)
BIRD Grammar
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
7f7546e81af25de4653b1b95faeed9a23a3ddc5c
2077
2076
2008-02-12T15:47:08Z
Nguyen
15
/* BIRD-QL Biological Query Language */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==Macsim utilise BIRD==
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
==Gscope utilise BIRD==
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
cbe24c40cfd896b447ce5ed3c43ad7318a03451f
2081
2077
2008-02-12T15:52:46Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation ===
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
d8aef4bbc1cbdbfa8c98ffec97ddd703565e32db
GEO Affymetrix GPL
0
1377
2078
2008-02-12T15:47:20Z
Wraff
5
New page: GEO GPL-platform IDs for Affymetrix arrays: human 3'expression arrays : GPL 96 : U133A GPL 97 : U133B GPL 80 : HuGeneFL GPL 570 : U133p2 GLP 4454: U133p2, with Brainarray custom cdf (ref...
wikitext
text/x-wiki
GEO GPL-platform IDs for Affymetrix arrays:
human 3'expression arrays :
GPL 96 : U133A
GPL 97 : U133B
GPL 80 : HuGeneFL
GPL 570 : U133p2
GLP 4454: U133p2, with Brainarray custom cdf (refSeq6)
GLP 5760: U133p2, with Brainarray custom cdf (curated genomic)
GLP 4866: U133p2, with BMNI custom cdf
mouse 3'expression arrays :
GPL 339 : MOE 430A (2.0)
GPL 1261 : 430.2
01e80c14f5fdbbe39f0994b97a79ea36a975ca43
2079
2078
2008-02-12T15:48:12Z
Wraff
5
wikitext
text/x-wiki
GEO GPL-platform IDs for Affymetrix arrays:
human 3'expression arrays : <br>
GPL 96 : U133A <br>
GPL 97 : U133B <br>
GPL 80 : HuGeneFL <br>
GPL 570 : U133p2 <br>
GLP 4454: U133p2, with Brainarray custom cdf (refSeq6) <br>
GLP 5760: U133p2, with Brainarray custom cdf (curated genomic) <br>
GLP 4866: U133p2, with BMNI custom cdf <br>
mouse 3'expression arrays : <br>
GPL 339 : MOE 430A (2.0) <br>
GPL 1261 : 430.2 <br>
dee97c531e79cf14e863339be3fb0cb9d030d556
2082
2079
2008-02-12T15:52:47Z
Wraff
5
wikitext
text/x-wiki
GEO GPL-platform IDs for Affymetrix arrays:
* human 3'expression arrays : <br>
GPL 96 : U133A <br>
GPL 97 : U133B <br>
GPL 80 : HuGeneFL <br>
GPL 570 : U133p2 <br>
GLP 4454: U133p2, with Brainarray custom cdf (refSeq6) <br>
GLP 5760: U133p2, with Brainarray custom cdf (curated genomic) <br>
GLP 4866: U133p2, with BMNI custom cdf <br>
* mouse 3'expression arrays : <br>
GPL 339 : MOE 430A (2.0) <br>
GPL 1261 : 430.2 <br>
bacb93dea2a0b8452db78c8f7c2bf2be1a014143
BIRD
0
1313
2083
2081
2008-02-12T15:55:00Z
Nguyen
15
/* Decrypthon Data Center Implementation */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]]
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ffc05ca0390fe36e3dc04224636f3a9d0f029629
2084
2083
2008-02-12T15:56:20Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratoire (IGBMC Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
0a9591b3478208d28e4f9501739b76bb7d9bc2ad
2085
2084
2008-02-12T15:57:19Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratoire ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
3ce87770a2ad3a4222fcb25c4eaef2455eb3c80d
2086
2085
2008-02-12T15:57:49Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD Miner Intelligent==
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
bf7cb388f6b1585f1c37c0e26dff521b43908677
2087
2086
2008-02-12T16:06:27Z
Nguyen
15
/* BIRD Miner Intelligent */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
WEB Server
BIRD-QL Service
API JAVA & SQL Native
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
9b9cbd958a10e7b8eba42409070ff56e15425f32
2088
2087
2008-02-12T16:20:56Z
Nguyen
15
/* DATA ACCESS */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available:
1. BIRD-QL Editor to run BIRD-QL queries.
2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
3.
===Simple Service===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
bf311b70949fb6ce0778327074a84838c41e39a6
2089
2088
2008-02-12T16:21:45Z
Nguyen
15
/* Data Browsing */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available:
1. BIRD-QL Editor to run BIRD-QL queries.
2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
3.
===Simple Service===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
6e1f5a2a252b76313cdc004a7d9d19da3ca72c59
2090
2089
2008-02-12T16:22:36Z
Nguyen
15
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. 2 query service are available:
1. BIRD-QL Editor to run BIRD-QL queries.
2. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
3.
===Simple Service===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
18fa2b7714be150cd17ce052484b3668f7071166
2091
2090
2008-02-12T16:26:55Z
Nguyen
15
/* DATA ACCESS (Decrypthon) */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
28dfad5653118dd7f072a487374f72631b52187d
2092
2091
2008-02-12T16:28:01Z
Nguyen
15
/* DATA ACCESS (Decrypthon) */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
90bbdc4574ef8940ad0d0eb2f109ee6d6cb4bf2e
2093
2092
2008-02-12T16:28:26Z
Nguyen
15
/* Decrypthon Data Center Implementation */
wikitext
text/x-wiki
BIRD : Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD (Nguyen et al, CORIA 2008, Hermes Edition)is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
826861a31634999d95b780584397a522d7501804
2094
2093
2008-02-12T16:30:15Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET, STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
3d55741fad64899628688d4892c3a8a2a34c9472
2095
2094
2008-02-12T16:31:31Z
Nguyen
15
/* DATABASES List */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
2de6b4720d165ab13a71cfefc07d0eb845a891eb
2096
2095
2008-02-12T16:32:14Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH [Field] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
291a7040711b81c79c0295068a476f2be57f13c6
2097
2096
2008-02-12T16:33:33Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS (Decrypthon Data Center)==
===Data Browsing===
Database content can be browsed from HTML BIRD WEB [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2.http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
4f1e30689681d3f2a436ea54b3f39b654dffc959
2098
2097
2008-02-12T16:39:12Z
Nguyen
15
/* DATA ACCESS (Decrypthon Data Center) */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5f92f7769560c5f88549f6dc7b7b82e75c6cbb85
2099
2098
2008-02-12T16:42:01Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources (Hernandez and Kambhampati, 2004). Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
a71e335f5f2d1e5ba4220b139228e68ae2eef8e2
2100
2099
2008-02-12T16:42:56Z
Nguyen
15
/* Scientific Context */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
30f0fbfaa8ab295e62032d734a958c4735624b0a
2101
2100
2008-02-12T16:43:41Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
cd9371df161732fea4e463729be2cf8cce29abce
2102
2101
2008-02-12T16:44:40Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Server at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Server at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
dc68fa98ba5acac15011633963d6bb4b9f8b42bd
2103
2102
2008-02-12T16:45:15Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Syntax: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=< ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info : http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2 get Protein : http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta : http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
a5a1f5805d3ae720d414cd4bfd59d07eb07e8590
2104
2103
2008-02-12T16:48:03Z
Nguyen
15
/* Simple Services */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info :
http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605 &field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2. get Protein :
http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
8f9389757de361f43effd2381394dadd8e93e3fa
2105
2104
2008-02-12T16:48:40Z
Nguyen
15
/* Simple Services */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info :
http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2. get Protein :
http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
WEB Server
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
d89e442ee93135acbb4ace8a2df1f74ded1da74b
2106
2105
2008-02-12T16:49:25Z
Nguyen
15
/* DATA ACCESS */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Service Adress: http://d1.crihan.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info :
http://d1.crihan.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2. get Protein :
http://d1.crihan.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta :
http://d1.crihan.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
b8b6404235238211b4ee6e20b810401f537f2945
2107
2106
2008-02-12T20:05:02Z
Nguyen
15
/* Simple Services */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Service Adress: http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id> & field=<DE,OS..> &format=<fasta/flat>
Ex1 get EST Info :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Ex2. get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Ex3 get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Ex4 get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
54dc9a8bd196e1ecd40d79193ab27b054367085b
2108
2107
2008-02-12T20:07:11Z
Nguyen
15
/* Simple Services */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. Script command (curl under linux) to run BIRD-QL queries, and can use it in calculations intensive, download birdql cmd.
2. http://d1.crihan.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor to run BIRD-QL queries.
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ee33402eb34a103e282ba1db45f195a3babaa403
2109
2108
2008-02-12T20:12:33Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
8ac6ecaa2c498277040a47ef7ba5ee51a80a9ad0
2110
2109
2008-02-12T20:14:44Z
Nguyen
15
/* BIRD Implementation */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim utilise BIRD===
Macsim peut se mettre maintenant en connexion directe avec Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
bc832bf75f4d05b424f4782c7ebd0ff164f99a00
2111
2110
2008-02-12T20:16:46Z
Nguyen
15
/* Macsim utilise BIRD */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRD===
Macsim can now get direct connection with Bird
===GPS utilises BIRD===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
f3a04ead45f520e311cce9934f8c7a84ef411e59
2112
2111
2008-02-12T20:17:15Z
Nguyen
15
/* GPS utilises BIRD */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRD===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
d794489815ba1948dacaa037ad50b3cca40f8c59
2113
2112
2008-02-12T20:17:51Z
Nguyen
15
/* Macsim uses BIRD */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Data Discovery in Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5d1d9c0b3cdaa77c0ee829cbc8a3bdbc166fc516
2114
2113
2008-02-12T20:18:48Z
Nguyen
15
/* Data Discovery in Database */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains synthetase |and tyrosyl
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains Eukaryote
WH DR Contains GO
WH GENE contains GF100027
FM SIMPLE
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
bef1022ee2645dd1608d34334d093ec81a418864
2115
2114
2008-02-12T20:21:31Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen]] at LBGI laboratory ([IGBMC] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
27ad6b24bb952b07c52934a531f7a095e10574c6
2116
2115
2008-02-12T20:23:29Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data est développé par [[Hoan Nguyen, nguyen@igbmc.u-strasbg.fr]] at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5652e91e83cb258c4510a96ee7e455fc8dbc82e9
2117
2116
2008-02-12T20:25:10Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
b65952b70617832cf287d9042027a26b88572c12
2120
2117
2008-02-12T20:33:48Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
cfd86f7b8caf8a37d84be6b0c7ec562d25969738
2121
2120
2008-02-12T20:36:56Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()
WH PATTERN <function …. ()
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
e4757ce9df8df6595dbd316b8eb3c78646a49402
2122
2121
2008-02-13T07:59:31Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRD-QL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
9474a19540085b642a682e45df0e8a829237a9f5
2123
2122
2008-02-13T08:00:44Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
834e67c137cdb34d6c3dbbd67db86ab07b03cdc9
2124
2123
2008-02-13T08:01:08Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) is designed to manage collections of biological data. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD is developed with the Java technology. BIRD uses IBM DB2 for data server; Websphere Federtion Server for virtual databases and Miner Intelligent for KDD. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
14d6356d1d3b155118d9061901946b475d38cf8d
2125
2124
2008-02-13T08:15:21Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
64bebf139415b7e359b88602da567574b1335301
2126
2125
2008-02-13T08:23:52Z
Gagniere
3
/* BIRD Implementation */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5a634c8ec37571ace5832bec9310c7650fe713d6
2127
2126
2008-02-13T12:58:57Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
Example 4: Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
Example 5: Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
Example 6: Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
Example 7: running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ddb66de593b9e173c0f9a1dd290123b4d717863b
2128
2127
2008-02-13T13:00:12Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
Example 1: simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 2: complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
Example 3: mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
Example 4: Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
Example 5: Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
Example 6: Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
Example 7: running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
e6d7e5f4d511e14a11205ae80e97308340e13b72
2129
2128
2008-02-13T13:01:41Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==DATA ACCESS Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
e3754bf23d6207ffc4262a1b9c4f33e58d2f7540
2130
2129
2008-02-13T13:04:32Z
Nguyen
15
/* DATA ACCESS Protocoles */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql =”ID * DB UniProt
WH DE contains ..
FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
9881ea41bb445777f27f3287a1fc83c83d15d922
2131
2130
2008-02-13T13:06:50Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfacreDB(“my-bird”)
// BIRD-QL
birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
273e645b34ae63a1c9dc639db5b9a1a5833741d2
2132
2131
2008-02-13T13:07:12Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
OID=birddb.queryengine.run(birdql);
For { i=1 to N }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
3de63e31448ee71f6f2f800e69a9a4764f9054f3
Main Page
0
1279
2118
2034
2008-02-12T20:30:10Z
Nguyen
15
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD System]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
4b2aa952db27a1b54f81d175c116c8669b610278
2119
2118
2008-02-12T20:31:15Z
Nguyen
15
/* Progiciels */
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
b3418bc511794ea256da8c119f3a1602b485acaa
BIRD
0
1313
2133
2132
2008-02-13T13:08:02Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ce62149ae1ebdf5ea1401e688de110a5cf872acb
2134
2133
2008-02-13T13:19:37Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
…
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
ae04d4d8884c48f2e60784b6223926dcce24f89f
2135
2134
2008-02-13T13:20:23Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
461110f3f17c5b7780bfa8b9cdf1b9b89c067465
2136
2135
2008-02-13T14:01:32Z
Nguyen
15
/* Simple Services */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&idcode=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
54fd10ad6ea7b0fca469fa1a96498131a2606d44
2137
2136
2008-02-15T14:49:03Z
Nguyen
15
/* Simple Services-Bank ID */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=....
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
9dd450ca644fd147059031ec6523cc8b1a78e033
2138
2137
2008-02-15T16:06:32Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example:
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID* DB Uniprot--WH DE contains "Helianthinin-G3"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
5ee932a1e00a24eaf708d21200c881099e8e3bdb
2139
2138
2008-02-15T16:25:43Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example:
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
fcf07832cc576b77d171da90ea39ef8549e7362a
2140
2139
2008-02-15T16:26:02Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example:
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
c50304fb81173c6014fbdafababab2b68a325cf1
2141
2140
2008-02-15T16:26:11Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
9ff7324096ffdbc5fff38ee0512acf1f56e4b071
2142
2141
2008-02-15T18:02:46Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID%20*%20DB%20Uniprot--WH%20DE%20contains%20%22histone%22--LM%2010--FD%20AC,DE--FM%20FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
84ad2b6ac75213d2cb1acc9dc7ca056f4930ee63
2143
2142
2008-02-15T18:02:57Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID%20*%20DB%20Uniprot--WH%20DE%20contains%20%22histone%22--LM%2010--FD%20AC,DE--FM%20FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
eb3579f7ba0363090b9d57b3d2e24ea100e9b8c5
2144
2143
2008-02-15T18:04:13Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FD AC,DE--FM FLAT
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
14279ef15e3c5533c0e1107357f054892ccfa10b
2145
2144
2008-02-15T18:05:12Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
d7f5ae3e1766409dc3384a6cb532de5be150937e
2146
2145
2008-02-15T18:20:05Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==CITATION==
NGUYEN H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O.: Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
fa04485032c5ef2b231ece165f062d3023d7a711
2147
2146
2008-02-15T18:20:27Z
Nguyen
15
/* CITATION */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==CITATION==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O.: Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
bc7582c8b1163c9d323b412d79fcdec3b487ee43
2148
2147
2008-02-15T18:20:44Z
Nguyen
15
/* CITATION */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==CITATION==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
5ddf0bdf16d99a6536609d639cb7d6ea792093d0
2149
2148
2008-02-15T18:20:58Z
Nguyen
15
/* CITATION */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Citation==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
39b6e7d4cbd8a73300b1f02d4b659fd16339fe9a
2150
2149
2008-02-15T18:33:11Z
Nguyen
15
/* Citation */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen, nguyen@igbmc.u-strasbg.fr at LBGI laboratory (IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg)
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
...
1998fb9de7a7308ff4611e8a0aa1167430118a83
2151
2150
2008-02-15T18:37:44Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM OID
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
...
cde91a62bc7d66675036577ff748ee2bea831ee1
2152
2151
2008-02-15T18:41:30Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
...
fca02d901b24fc99c3009ed7cf677d473d7e50ee
2153
2152
2008-02-15T18:43:16Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite GOA, please use the following publication;
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
...
104f71b24dce9a8515f70e9fa0ab5270a7e9f71b
2154
2153
2008-02-15T18:43:26Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite GOA, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
...
...
db3aeac2c2e83daf4cb88ffcb5713759498d7cb9
2155
2154
2008-02-15T18:43:41Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite GOA, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
f0dee5acea56240aa3b30a457c47aa59d9c2ecf8
2156
2155
2008-02-15T18:45:08Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Implementation==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Architecture Federation
Data Model
Query Engine
Data Integration
Key Technologies
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
42886b4837f4ed8dce4a36107d16c958d22727bd
2157
2156
2008-02-15T18:49:41Z
Nguyen
15
/* BIRD Implementation */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor.
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
7ff2a6c2990d6d712bc80fd2625fdb3ff389ca79
2158
2157
2008-02-15T18:50:34Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query (via HTTP service or API Java).
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
450f6d51a024c79a3eb90ea80d9523f216f1cdfd
2159
2158
2008-02-15T18:54:20Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA & SQL Native===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
f24e1b9b487d43829dd32ab1f48d772fda8fd7ec
2160
2159
2008-02-15T19:01:57Z
Nguyen
15
/* API JAVA & SQL Native */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
==BIRD System in Action ==
===Decrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
1837559bf8fe401e6d5cf7c8ae9ef551660c557f
2161
2160
2008-02-15T19:03:29Z
Nguyen
15
/* Decrypthon Data Center Implementation */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
87f1998f1c25a370fdf117fbc5cf0dc849a7945f
2162
2161
2008-02-15T19:04:46Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
wwwww
5f0c073963cde020255be24b2c7033379e4cd5ec
2163
2162
2008-02-15T19:06:12Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
wwwww
cc04d260796e05af47d18f71c5b47c9c42bf62db
2164
2163
2008-02-15T19:06:58Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
wwwww
8233be69ddf38deaf9c488588b008456750c9634
2165
2164
2008-02-15T19:07:10Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
f55558ad397e666c5d93d15266ed9e1181e38ddc
2166
2165
2008-02-15T19:07:49Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: [nguyen@igbmc.fr] | 0033 388653302
c7d7c50adfb0f23fdcc0eadd5e996f47662fcb41
2167
2166
2008-02-15T19:08:00Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Decrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
f55558ad397e666c5d93d15266ed9e1181e38ddc
2168
2167
2008-02-15T19:09:21Z
Nguyen
15
/* Data Browsing at Decrypthon Data Center */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
96d7cc910832630dd9ef297a840693401b9e33ed
2169
2168
2008-02-15T19:13:11Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System was use to implemntation Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
3244d5dd9aaab485b2a92113e0ceb3ebf451e8ca
2170
2169
2008-02-15T19:14:55Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
10c951dbf4b56b3ba72019d807fa446f71de5693
2171
2170
2008-02-15T19:15:05Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team
Contact: nguyen@igbmc.fr | 0033 388653302
b41564352708a2cdbcc1974ea12896267a537de4
2172
2171
2008-02-15T19:18:04Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
Mirror at Decrypthon: [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]]
Mirror at IGBMC: [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
4ebbcc50a11175773cbd9dbf6fa206a7b17eaa91
2173
2172
2008-02-16T01:11:11Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [[http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]] [[http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
cbf09b4a7bab39753fe97e5f073073d818e86e0c
2174
2173
2008-02-16T01:12:54Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains kw1 |& kw2 |& kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH PATTERN <function AssociationRule()>
LD <Field out>
FM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
eaf6686eec448a3e2113bcca2bb29d2cf88ec294
2175
2174
2008-02-16T01:25:35Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObjet(OID[i];
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
41be32651f0d474f8c2427e0db76ec884913f74a
2176
2175
2008-02-16T01:28:26Z
Nguyen
15
/* API JAVA - BIRDQL Client */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API bird
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
ff60b426562eef725de33a8f589834d1f366a2ef
2177
2176
2008-02-16T01:46:03Z
Nguyen
15
/* API JAVA - BIRDQL Client */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name for query result
Variable
Description
image_type 1 = floating point
2 = integer
3 = byte
image_offset The start of the pixel data in bytes
from the beginning of the file
image_width The width of the image in pixels
image_height The height of the image in pixels
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
6b1a69fc1d6c24960a42518ddc6f181e71d586a4
2178
2177
2008-02-16T01:51:05Z
Nguyen
15
/* API JAVA - BIRDQL Client */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Example in BIRD System===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
3152a04d8f348e5f7aca6827fdb494a17d5692e6
2179
2178
2008-02-16T01:52:56Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2...
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
fa29175be1dc8f4572f88c1b0996c41505353c12
2180
2179
2008-02-16T01:57:49Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
0b9cf67a6b5061106f451a34d57a7a3ea0cb70dd
2181
2180
2008-02-16T02:00:52Z
Nguyen
15
wikitext
text/x-wiki
BIRD System: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
3ba624157cb79600ea3f8b43a62ada672b2f3da9
2182
2181
2008-02-16T02:16:33Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
Data Model
Query Engine
Data Integration
Architecture
Key Technologies
CVS
Team :Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
cf8f037b0d2b891488e14211a568a8e1b84d444a
BIRD
0
1313
2183
2182
2008-02-16T02:35:23Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1 and WebSphere Federation Server
Java/J2EE Server
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML : File configuration and Modeling
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
24601ba8929b051cf7a3341f56c6529d3bcd1968
2184
2183
2008-02-16T02:36:27Z
Nguyen
15
/* Key Technologies */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML : File configuration and Modeling
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
9d9776bc07919ae71ed85989ccab845102f9de90
2185
2184
2008-02-16T02:37:42Z
Nguyen
15
/* Key Technologies */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
120bfaf40a0804c3e0b7fd3bbcca434c8cbc2d42
2186
2185
2008-02-16T02:38:14Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
34cc9b6ee6d671cba43786a185f34914f046bd0e
2187
2186
2008-02-16T02:38:49Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center Implementation===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
a464941979edcf9ec12d8f8ac559260583654367
2188
2187
2008-02-16T03:09:04Z
Nguyen
15
/* Décrypthon Data Center Implementation */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
27fe7c3099ea436814c886fad542675162a70cb0
2189
2188
2008-02-16T03:10:53Z
Nguyen
15
/* BIRD System is core of Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center===
[[Image:Example.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
2b7139964a1a3c0d0d40191b5db066c9634b0673
2191
2189
2008-02-16T03:13:34Z
Nguyen
15
/* =Overview of Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:Example.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
fe6163f9dc22cdffe605f1e13e8f74f1ba62ec42
2192
2191
2008-02-16T03:14:04Z
Nguyen
15
/* Overview of Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
41d584588c4b784ff25ad7fe924b933826ad5347
2194
2192
2008-02-16T03:17:35Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center[[Link title]]===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
7547729165400150fbff473e3e52ffc537c8a031
2195
2194
2008-02-16T03:18:28Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center[[Link title]] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center[[BIRD System is core of Décrypthon Data Center]]===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
e5887b16a9c00f5a49332aa921c23fe1963c8475
2196
2195
2008-02-16T03:19:02Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center[[BIRD System is core of Décrypthon Data Center]] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
:Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
41d584588c4b784ff25ad7fe924b933826ad5347
2197
2196
2008-02-16T03:19:22Z
Nguyen
15
/* Team */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===BIRD System is core of Décrypthon Data Center===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
56ef7e3110a6c3b745bf020b7048e9c3227bbffe
2198
2197
2008-02-16T03:33:45Z
Nguyen
15
/* BIRD System is core of Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
[[Image:ddb_idea.jpg]]
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
733457addc30d02c6bab7a6ad73c030cebef1edc
2200
2198
2008-02-16T03:41:08Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
====Overview of Décrypthon Data Center====
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
3f2ca2c275c0142eecf0005e2c372d13df32fc2b
2201
2200
2008-02-16T03:42:12Z
Nguyen
15
/* Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
d3156961405144b14014b6636bf2cbe99f975217
2202
2201
2008-02-16T03:49:20Z
Nguyen
15
/* Architecture */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAOs==
e354fe648e0ad7517c51850016166e08d920b3cd
2204
2202
2008-02-16T04:01:47Z
Nguyen
15
/* FAOs */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
87825c0e965127f67774f6ea0f6e1813e1d2afc2
2205
2204
2008-02-16T04:03:18Z
Nguyen
15
/* Macsim uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).
Macsim can now get direct connection with Bird
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
b9d72279921ba205e6f18abc7c0b051df3c7c5fe
2206
2205
2008-02-16T04:04:41Z
Nguyen
15
/* Macsim uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
9ad92650493c9c900ce436bc02f9af1076a40139
2207
2206
2008-02-16T04:05:16Z
Nguyen
15
/* Macsim uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publication==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing .....
...
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
476f9ac02268be7391895771ba4a423f4cf0d8d4
2208
2207
2008-02-16T04:06:48Z
Nguyen
15
/* Publication */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
839b8f397c4bb625cad8942098f60f33fb78711f
2209
2208
2008-02-16T04:20:25Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)====
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ..
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
13d46bec6a4a6acddfd05ed16fa43e6ddc015bab
2210
2209
2008-02-16T04:23:02Z
Nguyen
15
/* Origin BIRD System (SAADA)= */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)====
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ..
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
055a0458ea40465af10d2fdf47cf1d94592cdbaa
2211
2210
2008-02-16T04:27:02Z
Nguyen
15
/* Origin BIRD System (SAADA)= */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)====
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:Example.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
a7f280719eb0e52dc7a125829a9cb2da8312902e
2212
2211
2008-02-16T04:27:28Z
Nguyen
15
/* Origin BIRD System (SAADA)= */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)====
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
4fb60559dca16522e9e9f1920bcf392e40ba80f6
2214
2212
2008-02-16T04:34:05Z
Nguyen
15
/* Origin BIRD System (SAADA)= */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)====
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
9d2907412ebdc2b41b0450347b4153f3495b15af
2215
2214
2008-02-16T04:34:36Z
Nguyen
15
/* Origin BIRD System (SAADA)= */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
2b8134a21325a9826ed8d92ee26c44847380ecca
2216
2215
2008-02-16T04:35:41Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
Nguyen Hoan,PhD, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
de73758604c21d400c666d668c2780e2b69538a7
2218
2216
2008-02-16T04:40:39Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
1f043bfaf3d5d0207aef882de66a8976cb85ac74
2219
2218
2008-02-16T04:41:58Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and
Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
d1b5fbdc686da52ccbc209973196162f6ba12eef
2220
2219
2008-02-16T04:43:03Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest
of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
f53d26d3347a8ec293af45bb60185cf96d9dd39f
2221
2220
2008-02-16T04:44:08Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, Uniservity of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
c908a1498c2ddc4aeca7214a285812c63fc4cf39
2222
2221
2008-02-16T04:45:11Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddb_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
50df285bf6ec8a33f236372d5f8c8f75a9d0a766
2223
2222
2008-02-16T04:51:15Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBB DB2 V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
c4c56c2e389a98adc7ca6be263c465c4594df9c8
2225
2223
2008-02-16T05:04:11Z
Nguyen
15
/* Key Technologies */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML
File configuration
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
038520eb2675a8023d0af802945e4f410fe5dd8e
2226
2225
2008-02-16T05:05:04Z
Nguyen
15
/* Key Technologies */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
1e24ce4fb9f51696d2fbd04d0c011199a3af3819
2227
2226
2008-02-16T05:06:46Z
Nguyen
15
/* Distribution */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
e9375c3487023a55e761446786e38f6a8b8db0e8
2228
2227
2008-02-16T05:09:02Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===BIOWEKA===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
e1995f7ae4992412d080ff2803f419b8f33aef41
2229
2228
2008-02-16T05:09:20Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===BIO-WEKA===
===Use cases===
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
f296f6cdc2bd757f311d1efec4f29f8906192427
2230
2229
2008-02-16T05:10:31Z
Nguyen
15
/* Use cases */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===BIO-WEKA===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
5bfc85d9a826728b5ecc9651cccc191319f0011f
File:Example.jpg
6
1378
2190
2008-02-16T03:12:16Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Bird ddc.jpg
6
1379
2193
2008-02-16T03:16:21Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Ddb idea.jpg
6
1380
2199
2008-02-16T03:35:08Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Bird arch.jpg
6
1381
2203
2008-02-16T03:51:25Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Saada.jpg
6
1382
2213
2008-02-16T04:27:40Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Saada bird.jpg
6
1383
2217
2008-02-16T04:35:56Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Ddc idea.jpg
6
1384
2224
2008-02-16T04:51:32Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Main Page
0
1279
2231
2119
2008-02-16T13:49:40Z
Nguyen
15
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [[BIRD]] Biological Integration and Retrivial Data
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
fffc851b7bf77d3aa5e1f48ebcae0d2c1229a7da
2232
2231
2008-02-16T13:50:17Z
Nguyen
15
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
b3418bc511794ea256da8c119f3a1602b485acaa
BIRD
0
1313
2233
2230
2008-02-16T13:51:00Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===BIO-WEKA===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
ee6a051b8058e87d981aa61f905c110ab073fe68
2234
2233
2008-02-16T13:52:25Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada System.
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
Evaluation and Validation by ESO, AstroGRID, ADASS ...
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
ef447db4deccecc370fad6cb787b4c0d182afb28
2235
2234
2008-02-16T13:54:40Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
PhD Framework of Dr.NGUYEN Hoan supervised by Dr. Michel and Dr.Motch, University of
Strasbourg I, 2002-2005, Supported by CNES[www.cnes.fr] and Alace Region
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
61cfba047e3b3bfba24f53bf0e4da93165deb600
2236
2235
2008-02-16T13:59:55Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
a12c6b16fefcbd392b49fd4112bf6b8ed39052df
2237
2236
2008-02-16T14:00:13Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite
[http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
0596f1de527423e7c547279e880bc0bbb2f73a96
2238
2237
2008-02-16T14:00:31Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home]. The 2XMM catalogue of X-ray sources, the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
2f1c6e843da55dc4cbeb945d3d23b2b8db61d185
2239
2238
2008-02-16T14:00:51Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
287057d216c0f4caa74120b3c09add33718d5641
2240
2239
2008-02-16T14:01:07Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact: nguyen@igbmc.fr | 0033 388653302
==FAQ==
f7d0192a36879561881fe157f7c559415d2f2a20
2241
2240
2008-02-16T14:07:15Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact:
Nguyen Ngoc Hoan
IGBMC Strasbourg
Mail:nguyen@igbmc.fr
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
cf08893e7b5eb3e12b6da8aa5e8eac9c2a255e30
2242
2241
2008-02-16T19:28:03Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The main goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact:
Nguyen Ngoc Hoan
IGBMC Strasbourg
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
861120db69560e3a818f68697514f3c44a09fa8b
2257
2242
2008-02-18T06:59:58Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact:
Nguyen Ngoc Hoan
IGBMC Strasbourg
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
938cdb6cb892755cbd0260aec87483015701e274
2258
2257
2008-02-18T07:00:09Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
===Team===
Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O
Contact:
Nguyen Ngoc Hoan
IGBMC Strasbourg
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
9dfff5285a5ad9299f3ee96bce06cb21e05bb245
2259
2258
2008-02-18T07:03:52Z
Nguyen
15
/* Team */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
5a3ce6e95c4ab58bc3c3ae9d8f101895d1cc1f93
2260
2259
2008-02-18T07:22:34Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
NO
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
35f89025d3da1919a5d54e47b3bd2bdc92678660
2261
2260
2008-02-18T10:08:07Z
Nguyen
15
/* Project Distribution */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
[[Image:Example.jpg]]
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
b17c618ac0d61e5e842a4a0a79308c4e33383939
2262
2261
2008-02-18T10:08:50Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ==
aafece53fd4206fdda05c7bf372f51179ddc8776
2263
2262
2008-02-18T11:02:35Z
Nguyen
15
/* FAQ */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
6c506f926ccd42a63e91a436652b75a006c994e3
2264
2263
2008-02-18T13:57:45Z
Nguyen
15
/* BIRDQL Biological Query Language */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
63cd5b5529b90210dc9cffa0dce07d5f393116f9
2265
2264
2008-02-18T16:09:17Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:datamodel1]]
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
acc1587ab19b03c84428eba547ab01c77f6e896f
2266
2265
2008-02-18T16:12:10Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a2ea078750a67837d69202b869551f4815211a43
2267
2266
2008-02-18T16:12:31Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
70a8f729f5dbf88797dcb32991a509032abbcf21
2269
2267
2008-02-18T16:15:27Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
98e0de228de1a3da555767b2e3bdb3303b9f2e71
2271
2269
2008-02-18T16:17:21Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
91d3cf2f845fabb40447d7c8b2f4f5e0a276372f
2272
2271
2008-02-18T16:18:58Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
2caab938fc1817124bb17fee2605ad4cf7354b20
2273
2272
2008-02-18T16:19:14Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System (SAADA)===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
1f0061eedabb64ddfc080dd653279da54c8551a1
2274
2273
2008-02-18T16:25:59Z
Nguyen
15
/* Origin BIRD System (SAADA) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
52cac1e56182342cb9608a590fa01883945383f9
2275
2274
2008-02-18T16:26:33Z
Nguyen
15
/* Data Integration */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
8d426da7bc06ad45c2b4f7b349e2e7dd2f3eac33
2277
2275
2008-02-18T16:32:32Z
Nguyen
15
/* Data Integration */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
642e0d160b8818805a304f6283437506d477258e
2278
2277
2008-02-18T16:32:52Z
Nguyen
15
/* Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
Conceptual data model
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
800a016f2aca98c7e8e745556c66694b94b99d81
2279
2278
2008-02-18T16:33:05Z
Nguyen
15
/* Conceptual Data Model */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0de162900c8b9bd3ecfda098c61f5bcedace1821
2280
2279
2008-02-18T16:39:29Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the FindDeviations procedure
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
d2e885019ac7b9dffc5275606bcb6bf2e79c3dd7
2282
2280
2008-02-18T16:40:14Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the FindDeviations procedure
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
551afab902dbb444a8a5ecc28e9d5a820e8f5397
Membres du LBGI
0
1333
2243
2050
2008-02-16T19:38:49Z
Ripp
1
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut-être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (IE 3A CDD)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (thése)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (IE 3A CDD)
* [[Anne Friederich]] (doctorant)
* [[Nicolas Gagnière]] (doctorant)
* [[User:bedez | Florence Bedez]] (doctorant)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (doctorant)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (postdoc)
* [[Ravikiran Reddy]] (doctorant)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
e660f390ba2b9e62085172d42ecbead14f25a5ac
Logiciels
0
1319
2244
1805
2008-02-16T19:49:47Z
Ripp
1
wikitext
text/x-wiki
=Les Logiciels du Département de Biologie et Génomiques Structurales=
*Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp)
*La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli]
=Logiciels LBGI=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
*[[cluspack]] clustering tools
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
b3165b6231a53c30cec31ab8ee2a91f5d93f2eb6
2245
2244
2008-02-16T19:51:20Z
Ripp
1
wikitext
text/x-wiki
=Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs Département de Biologie et Génomiques Structurales]=
*Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp)
*La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli]
=Logiciels [http://alnitak.u-strasbg.fr LBGI]=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
*[[cluspack]] clustering tools
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
25fc50c380d3247ee6ca10aa6fdc0b15abb1246f
2246
2245
2008-02-16T19:53:14Z
Ripp
1
wikitext
text/x-wiki
=Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs DBGS] Département de Biologie et Génomiques Structurales=
*Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp)
*La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli]
=Logiciels [http://alnitak.u-strasbg.fr LBGI] Laboratoire De BioInformatique et Génomique Intégratives=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
*[[cluspack]] clustering tools
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
acfaa3ebc753e8561484187cc6161c92c72ecf4a
2247
2246
2008-02-16T19:54:29Z
Ripp
1
wikitext
text/x-wiki
=Les Logiciels du [http://alnitak.u-strasbg.fr/dbgs DBGS] Département de Biologie et Génomiques Structurales=
*Tout ce qui est disponible sur [http://www-bio3d-igbmc.u-strasbg.fr/%7Eripp/cgi-bin/DocAuto.tcl DocAuto] (Raymond Ripp)
*La page de [http://www-bio3d-igbmc.u-strasbg.fr/%7Ecava/labo_service/xray_progs.html Jean Cavarelli]
=Logiciels [http://alnitak.u-strasbg.fr LBGI] Laboratoire De BioInformatique et Génomique Intégratives=
*[[Gscope]]
*[[Gscope Clonage]]
*[[CADO4MI]]
*[[MACSIMS]] Mumtiple Alignement of Complete Sequences Inforamtion and Management System
*[[BIRD]] Biological Integration and Retrieval Data
*[[cluspack|Cluspack]] clustering tools
=Autres Logiciels=
*Statistique:
**[[R]]
*Visualisation
**[[Graphviz]]
01b1b73bf3a07ea1ec0eff6567559585b5b7a7a8
Cluspack
0
1353
2248
2019
2008-02-16T19:55:56Z
Ripp
1
wikitext
text/x-wiki
Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br>
Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
'''Utilisation''' :
En ligne de commande (avec tous arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
'''Attention''' : Cluspack tourne sur les "star" et mais ne tourne plus sur Beaufort !!
ea0ce7ac8f866da69e8769afa4f53b6be2be382e
2249
2248
2008-02-16T19:57:57Z
Ripp
1
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur les "star" et mais ne tourne plus sur Beaufort !!
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se trouver à la fin)
'''Utilisation''' :
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
ce347d54be560433b1d7d7075270bb23b5da3089
2250
2249
2008-02-16T19:58:36Z
Ripp
1
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
'''Input format''':
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se trouver à la fin)
'''Utilisation''' :
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
9e9e37e849498c2cfee70478885f6ec3c8ce4e54
2251
2250
2008-02-16T20:22:03Z
Ripp
1
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
fe99ce77f4e88a2d5991033417b02d5ff9af2552
Star
0
1346
2252
1739
2008-02-17T12:27:36Z
Ripp
1
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Ce sont des quadripro Opteron
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
31a48a9f3f21aed563dfea7b2f2e861f077611a8
2253
2252
2008-02-17T12:29:28Z
Ripp
1
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Ce sont des quadripro Opteron
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir qquelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
5e35fd5fe9414d3ac220a6075787d7f4244b522c
2254
2253
2008-02-17T12:30:08Z
Ripp
1
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Ce sont des quadripro Opteron
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 star4 star5 Star6 Star7 Star8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ...
La suite est à verifier ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
df538a2115076c66e799d4856fdd7baa2dc76213
2255
2254
2008-02-17T12:31:25Z
Ripp
1
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Ce sont des quadripro Opteron
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 , 4 , 5 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sut toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ...
La suite est à verifier ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
df3c7a182671483f5b47ac364fa20288f690de70
2256
2255
2008-02-17T12:31:48Z
Ripp
1
wikitext
text/x-wiki
Les Stars sont nos machines de calcul.
Ce sont des quadripro Opteron
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 , 4 , 5 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir quelques incompatibilités entre le RedHat et les Ubuntu, ou les Optéron et les Intel ...
La suite est à verifier ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
1f12fda92a756bb784112dbae1fd071637d98139
File:Model1.jpg
6
1385
2268
2008-02-18T16:12:46Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Model2.jpg
6
1386
2270
2008-02-18T16:16:32Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Integration1.jpg
6
1387
2276
2008-02-18T16:26:43Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Kdd model.jpg
6
1388
2281
2008-02-18T16:39:56Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
BIRD
0
1313
2283
2282
2008-02-18T16:40:55Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
4937e6a68c4b0e8cac358f8cfba135637d1511ee
2284
2283
2008-02-18T16:44:48Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
Your database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
49b07fada4bcda80e260e2af675a5e0d9b0a6ccc
2285
2284
2008-02-18T16:49:59Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
The database might contain customer data. In the tables or views of your database, there might be one column that you are particularly interested in. In the clinical data, you can find relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
94568a44a3d1a6fc02c153aa5d73d5f1fcd68791
2286
2285
2008-02-18T16:50:28Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
The database might contain customer data. In the tables or views of your database, there might be
one column that you are particularly interested in. In the clinical data, you can find relations
between symptoms and diseases. With this information, you can predict the potential diseases of new patients
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
acb820f31836e4c96395bea6ab3f43524f6133c2
2287
2286
2008-02-18T16:53:26Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
The database might contain customer data. In the tables or views of your database, there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0bdc0f847c898e10ecf453d429faeeb62295b288
2288
2287
2008-02-18T16:54:53Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
===DB2 Miner Intelligent (API)===
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
6d9512beb86b5e9bfabd00a8dd2858f5a97e9c9f
2289
2288
2008-02-19T03:56:47Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===Theory and Functionalities===
====Association rule learning====
What Is Association Rule Mining?
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Basic
Itemset: a set of items
E.g., acm={a, c, m}
Support of itemsets
Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
Learning in K-maps
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij),
where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
2d976d29f291a9d7c9ef5060a16a7da5697fb22b
2291
2289
2008-02-19T04:03:34Z
Nguyen
15
/* Association rule learning */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Kownledge Discovery in Biological Database===
===Theory and Functionalities===
====Association rule learning====
'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
'''Apriori Algorithm'''
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
Learning in K-maps
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij),
where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Use cases===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
e95d11da89ae40859702788d17a68c6d2c7d1dce
2293
2291
2008-02-19T04:04:48Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theory and Functionalities===
====Association rule learning====
'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
'''Apriori Algorithm'''
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
Learning in K-maps
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij),
where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
7fcdf6a8c55bb360917cb4ea23155b1886c212b6
2294
2293
2008-02-19T04:06:26Z
Nguyen
15
/* Kohonen´s feature maps */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theory and Functionalities===
====Association rule learning====
'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
'''Apriori Algorithm'''
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
Learning in K-maps
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
49fb140fcc5af1fd523b0570a8cf4335159faaae
2295
2294
2008-02-19T04:08:16Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
====Association rule learning====
'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
'''Apriori Algorithm'''
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
f29d2b0a67666ed07916c0bf202e39d807954eba
2296
2295
2008-02-19T04:11:51Z
Nguyen
15
/* Association rule learning */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
====Association rule learning====
'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
'''Apriori Algorithm'''
[[Image:Apriori.jpg]]
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return k Lk;
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
fe6e7e38fd974073d76bff7a09b88eda510af31a
2297
2296
2008-02-19T04:14:31Z
Nguyen
15
/* Association rule learning */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
ea577f5be77213e0f1018286d88fff315bb90dc4
2298
2297
2008-02-19T04:45:09Z
Nguyen
15
/* Theories and Functionalities */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
68e319aad09d1f3dffc676f7aa1af413d6df9fdd
2301
2298
2008-02-19T05:18:55Z
Nguyen
15
/* Association rule learning */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
e8cab89fc0d28c7329bf407ae415029c9fdb41f7
2302
2301
2008-02-19T05:20:59Z
Nguyen
15
/* Theories and Functionalities */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
[[Image:algo3.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a11b34fda2bcd91502c04b1936a869263e05a681
2304
2302
2008-02-19T05:25:52Z
Nguyen
15
/* Theories and Functionalities */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
7883cfca7e8da11cc5e1b5b6cdb53ec957121423
2306
2304
2008-02-19T05:27:44Z
Nguyen
15
/* Theories and Functionalities */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
[[Image:kdd_model.jpg]]
Data flow of the mining procedure (FindDeviations)
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
56df08ae0694c81a966e8a4b8d11a66188d23547
2307
2306
2008-02-19T05:29:09Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Transciptomic
Protein Protein Interaction Pattern
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
433356f65172862f06e6b6f6d5292c76aa025be2
2308
2307
2008-02-19T05:38:07Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions?
�
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using our suggested strategies?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using our suggested strategies?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using our
suggested strategies?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
acbe18500d15488fad3f29d85c4711b2b74fe30b
2309
2308
2008-02-19T05:39:21Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions?
�
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using our suggested strategies?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using BIRD KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing.
Can we detect such poly genic disorders using BIRD KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0449781e8fed7c3177a8c9f94f4df280d5030fd6
2310
2309
2008-02-19T05:40:30Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using BIRD KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using BIRD KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing.
Can we detect such poly genic disorders using BIRD KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
8a6cc3e2f77e89c362a667b2fd2922d428517a33
2311
2310
2008-02-19T05:40:44Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using BIRD KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using BIRD KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using BIRD KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
29e811d1aac455e40e43a4ef34fd6ab50f3683f2
2312
2311
2008-02-19T05:44:48Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions (source IBM Miner Intelligent)?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
63286940384dc06e53a028ef6e0c0a3a732627a5
2313
2312
2008-02-19T05:52:27Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASES List ==
GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
4d988fd2d7cde73de03de1335c0a37470b18b67a
2314
2313
2008-02-19T07:10:06Z
Nguyen
15
/* DATABASES List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL,GENBANK, XML, CSV, OBO, PDB
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
ee9144d7d5179357368458027e3f86d280bf442f
2315
2314
2008-02-19T07:12:13Z
Nguyen
15
/* Data Format & DATABASES List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==BIRDQL Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
876a0ccf660e2448b8fbead5466a5a003a9a8735
2316
2315
2008-02-19T11:27:15Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
69ceafa623764bd9b7ba9d7240bef7b49ddc0c71
2319
2316
2008-02-19T11:29:32Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==Data Access Protocoles==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
348dc44173f15e9ad446bfc4b0eed17a6d25d8ae
2320
2319
2008-02-19T11:31:27Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==[[BIRD-Data-Access-Protocol|Data Access Protocoles]]==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
9c86a4ee8e350005c629deda894ae7a3b6b9fc07
2321
2320
2008-02-19T11:32:22Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==[[BIRD Data Access Protocol|Data Access Protocoles]]==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
5a4e6722910b1adabf966adc5e8dd86b4b48cf50
2323
2321
2008-02-19T11:35:30Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==[[BIRD Data Access Protocol|Data Access Protocoles]]==
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
d9a36e0912b63d45ab0095523676e23f5d6cc437
2324
2323
2008-02-19T11:36:47Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocoles]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
60f2f34b8de18654a18467247ecec273a3a80b72
2325
2324
2008-02-19T11:40:12Z
Ripp
1
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==BIRD Development ==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a45280efba99ee402e0e3dd4a37db46aa82d44f7
2326
2325
2008-02-19T11:58:50Z
Nguyen
15
/* BIRD Development */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
d5ad22d2537bbae45d2b32f1d821c7d51a173e78
2329
2326
2008-02-19T12:02:11Z
Nguyen
15
/* [[BIRD Development]] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
705b3b9fe7f5797e781bce39f68409418ef08bf7
2332
2329
2008-02-19T12:04:04Z
Nguyen
15
/* [[BIRDQL]] Biological Query Language */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a02e68e0295d8f055b5775f4eaec1dc339cf8002
File:Rulesbasic.jpg
6
1389
2290
2008-02-19T03:57:54Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Apriori.jpg
6
1390
2292
2008-02-19T04:03:49Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Kddstep.jpg
6
1391
2299
2008-02-19T04:46:31Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Kddsetp2.jpg
6
1392
2300
2008-02-19T04:46:52Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Algo3.jpg
6
1393
2303
2008-02-19T05:21:11Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Modelview.jpg
6
1394
2305
2008-02-19T05:26:48Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
BIRDQL
0
1395
2317
2008-02-19T11:28:24Z
Ripp
1
New page: ==[[BIRDQL]] Biological Query Language == ===BIRDQL in few words=== The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these...
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
18f6eacab7915506a4c77ae5df2326b800597b8f
2318
2317
2008-02-19T11:28:48Z
Ripp
1
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
9e2c4bd4bbfe37662db4fb32e198546ab165a04b
BIRD Data Access Protocol
0
1396
2322
2008-02-19T11:34:11Z
Ripp
1
New page: ==BIRD Data Access Protocol== ===Data Browsing at Décrypthon Data Center=== Database content can be browsed from BIRD System WEB Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/Bir...
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by BIRD-QL Service===
Data can also be selected with BIRD-QL queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
e35a3c6480c9630285d6e3a1130f70a7f0897f5e
BIRD Development
0
1397
2327
2008-02-19T11:59:40Z
Nguyen
15
New page: [[lbgiki:BIRD_implementation|BIRD Implementation]] ===Origin BIRD System=== BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]....
wikitext
text/x-wiki
[[lbgiki:BIRD_implementation|BIRD Implementation]]
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
ad8aeab6dd9191f6167b6de0e6db99a6e2ac0376
2328
2327
2008-02-19T12:01:06Z
Nguyen
15
Replacing page with '
===Project Distribution===
Not net to public'
wikitext
text/x-wiki
===Project Distribution===
Not net to public
fd536a86fe80b326107fa8bef5b4577803e7fc79
2330
2328
2008-02-19T12:02:26Z
Nguyen
15
/* Project Distribution */
wikitext
text/x-wiki
===Origin BIRD System===
BIRD was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
3594fdf62f2ed51412451313ed6ecd5e2b17ef48
2331
2330
2008-02-19T12:03:06Z
Nguyen
15
/* Origin BIRD System */
wikitext
text/x-wiki
===Origin [[BIRD]] System===
[[BIRD]] was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
866dcc8d8d235c50744922f2295da2a23cd9cba0
BIRD
0
1313
2333
2332
2008-02-19T12:05:27Z
Nguyen
15
/* [[BIRDQL]] Biological Query Language */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
b2775977f41fcecf547e5367fa29fe7af7764968
2334
2333
2008-02-19T12:06:19Z
Nguyen
15
/* [[BIRD Development]] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0938fecb934b03edeb98f50c019a78e6a960ba22
2335
2334
2008-02-21T10:43:46Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data system but also a plate-forme of Kownlegde Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
266800ac3e72aa66cf97ee97edfc20c782eef48e
2336
2335
2008-02-21T15:35:54Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
4eec324358ceaeae60941f7e63638d6c9076e86f
2337
2336
2008-02-21T15:52:36Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns (association rules, etc) integrated in BIRD-QL.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0d02ddb917ba62654c6b7a5143c85b3a6d04aebe
2338
2337
2008-02-21T15:54:02Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
11cab33cc2d3a3150a425a22abd76668b891d5c5
2340
2338
2008-02-22T16:35:17Z
Nguyen
15
/* GPS uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==BIRD Data Access Protocoles==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
3706ce41b7986fcbdb4c2cfc7c947b221b0c1726
2341
2340
2008-02-25T12:45:27Z
Nguyen
15
/* BIRD Data Access Protocoles */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to intensive computation and simulation. BIRD heritages somes main idea of Saada project[http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of the database according to semantic topics and real requirements.
BIRD is driven with a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable to generate the sub-bank of data in accordance with the real requirement.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
BIRD System is developed with the Java technology. BIRD System uses IBM DB2 for data server; Websphere Federtion Server for virtual databases. The web application is hosted by a Tomcat Server or by a WebSphere Application Server.
BIRD System is not only a retrieval data but also a plate-forme of Knowledge Discovery in Biological Database or an inductive database. We use IBM Miner Intelligent (association rules, classification, ..) in order to develop the data mining model. User could uses BIRD-QL for mining pertinent information or analyzing the relational patterns by using descriptive patterns of BIRD-QL engine.
The first goal of Bird System is to implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]es==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
1240ccf6aa1bc9c1739100c9bdf5c01440ac19e1
2349
2341
2008-03-13T07:59:01Z
Nguyen
15
/* What is BIRD System */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASES List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]es==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
554db73ca86fd9aab3aa30a6039d1933b9101f78
2350
2349
2008-03-13T07:59:47Z
Nguyen
15
/* Data Format & DATABASES List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language ([[BIRDQL]]), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]es==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
e33cdf79287c38bee127ab3b791cab4daa65eb8c
2351
2350
2008-03-13T08:05:42Z
Nguyen
15
/* [[BIRDQL]] Biological Query Language */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]es==
Several protocoles are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
40bfa4c92048ad5df08ac1167e46d785feb1f38b
2352
2351
2008-03-13T08:06:20Z
Nguyen
15
/* [[BIRD Data Access Protocol]]es */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feayture map (K-map) is uses analogy with such biological neural
structures where the placement of neurons is orderly and reflects structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
K-map learns, when continuous-valued input vectors are presented to it without specifying the
desired output. The weights of connections can adjust to regularities in input. Large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is usable in speech recognizer
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from teacher. Preserves closeness (topolgy).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
79035e94c99bcd44ce211994bfb6dba556be5923
2353
2352
2008-03-13T08:12:05Z
Nguyen
15
/* Kohonen´s feature maps */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Miner Intelligent (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics by using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family statusThe information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data by using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find most important fields by using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
6c58b10dc00c153215c345fad376eb0f3e13b8ba
2354
2353
2008-03-13T08:13:47Z
Nguyen
15
/* DB2 Miner Intelligent (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, does there exist any relationships
between nucleotides? If yes, does a mutation of the one nucleotid also
influence the other ones and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we then find indicators
that are probably responsible for mutation?
� Sequence tagged site (STS) are a short (200 to 500 base pairs) DNA
sequence that has a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Genetic disorders resulting from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles; therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD ?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referenced as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
964105774abb55cf34cf14d4d4eff9169a12fcf3
2355
2354
2008-03-13T08:17:17Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
BIRD System is core of Décrypthon Data Center.
Sharing of large scare biological data for applications (Macsim, MS2PH, Macgos, Ordali..)
runing on Décrypthon Grid.
Managing of generated data (result) on grid
Sharing of data and services for scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
9262c0b80ee360dcd91f66ea6df6e92623fbf6b7
2356
2355
2008-03-13T08:19:08Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Macsim uses BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006).MACSIMS provides a unique environment that facilitates knowledge extraction and the presentation of the most pertinent information to the biologist .
Macsim gets direct connection with Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
74a787cfcc022092af56011e89c3e85356cd9e4c
2357
2356
2008-03-13T08:21:07Z
Nguyen
15
/* Macsim uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
2b54f7ac66ce5b3918046d84245b427c7702e4e0
2358
2357
2008-03-13T08:21:25Z
Nguyen
15
/* GPS uses BIRDQL engine */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope peut se mettre maintenant en connexion directe avec Bird
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
Bird sait intégrer les fiches infos d'un projet Gscope. On peut alors les interroger directement par http ou par Gscope ou, mieux, par des affiches avec la commande '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0a50e38804228610fdb2f805c9cea5c34907961f
2359
2358
2008-03-13T08:24:08Z
Nguyen
15
/* Gscope utilise BIRD */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD business intelligence ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a2b380a764e2d9080d13f2c9bffef34ef316d2c3
2373
2359
2008-04-07T12:09:14Z
Nguyen
15
/* BIRD business intelligence */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action ==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
275e6b4d0663a04a42e21070f3c7b322b1ecee1f
2374
2373
2008-04-07T12:11:00Z
Nguyen
15
/* BIRD System in Action */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
bb69e5febf60c6e099c896da21d9d352c13602b1
2375
2374
2008-04-07T12:12:13Z
Nguyen
15
/* Data Format & DATABASE List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
[[Image:kddsetp2.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
87d91697e6a9c59a47d3ac6e1c40d2531f14f493
2376
2375
2008-04-07T12:13:09Z
Nguyen
15
/* Theories and Functionalities */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
0e47df6e593f3bd40de01c1965cc17c6778e79b2
2377
2376
2008-04-07T12:14:55Z
Nguyen
15
/* Association rule learning */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
===Kownledge Discovery in Biological Database===
Some questions ?
� Can we perform sequence analysis in order to detect sequence patterns that
occur very often in the chromosome?
� If a mutation takes place in a chromosome, are there any relationships
between nucleotides? If so, does a mutation of one nucleotide
influence the others and can we use one of the techniques described
above to find such relationships?
� If we translate the activities of the nucleotides into a frequency, can we then
detect similar sequences that occur over time? Can we find indicators
that are probably responsible for the mutations?
� Sequence tagged sites (STS) are short (200 to 500 base pairs) DNA
sequences that have a single occurrence in the human genome. Can we detect
such STSs using KDD?
� Some genetic disorders result from the combined action of alleles of more than
one gene (for example, heart disease, diabetes, and some cancers). Although
such disorders are inherited, they depend on the simultaneous presence of
several alleles. Therefore, the hereditary patterns are usually more complex
than those of single gene disorders. Can we detect such polygenic disorders
using KDD?
� A problem in bioinformatics is the determination of the order of the
nucleotides in a DNA molecule or the order of amino acids in a protein. This is
referred to as sequencing. Can we detect such poly genic disorders using KDD?
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
a9c14f9df5a58ba088659044b1b5f32015444b71
2379
2377
2008-04-07T12:18:35Z
Nguyen
15
/* Kownledge Discovery in Biological Database */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
90019f6c9ce71ab5525d73985ea3e1bfeb7a041e
2380
2379
2008-04-07T12:23:17Z
Nguyen
15
/* BIRD KDD-Knowledge Discovery */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
b8ada976db23fff8b57cb0add5158fccea0c7d9b
2381
2380
2008-04-07T12:27:06Z
Nguyen
15
/* DB2 Intelligent Miner (API) */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO (NCBI), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
ef7d625f0284005c060a3b254fe7898e84afb34a
BIRDQL
0
1395
2339
2318
2008-02-22T11:41:00Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
a7251bcd8d0d6d4925c5804c13e98e241af715e6
2343
2339
2008-02-26T11:45:08Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 7''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 8''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
7b518ad052cd2e7f2931a4fd5151aa4073756468
2344
2343
2008-02-26T11:45:40Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
755ca28f6261a3141588916294c0cca0335a522b
2345
2344
2008-02-26T11:46:18Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
34e0524e4f54045a854bbefc095d952e8456e667
2346
2345
2008-02-26T11:46:49Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
d0a7dd7c46a5396b4c8f1a495b7ac4b37cda0c1f
2348
2346
2008-03-05T09:06:37Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or GEO) (authorized user)
ID * DB SAGEData
WH TAG contains "AAAAABBBBB"
FD Experience
Limit 1000
FM FLAT
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
db883368966b25d49ae3152bba71003b94d55619
2363
2348
2008-03-31T09:47:02Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or GEO) (authorized user)
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
8ed3739c1741c8687aef4048d0461a63c2083667
2364
2363
2008-03-31T10:01:25Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or GEO) (authorized user)
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB GEO
WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
1d305762f0c8ce955dce1e70c297c22af71e1f45
2368
2364
2008-03-31T14:00:26Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Data can also be selected with
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or GEO) (authorized user)
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB GEO
WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
fa518e5c7dbe3d9025ab1b8034f1c084d4d771f7
2369
2368
2008-03-31T14:01:07Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or GEO) (authorized user)
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB GEO
WH SQLNATIVE select e.key_fk,e.tag,e.count from GEOSAGE.entry as e, GEOSAGE.header as h where (h.sample_id=e.key_fk and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB GEO
WH SQLNATIVE select key_fk,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
bf92ca7df436ee265c70da34dff246f47c942b73
2370
2369
2008-04-02T14:43:26Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3"
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MGEO
WH SQLNATIVE select sample_id,tag,count from GEOSAGE.entry where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
cd782017291fa2cc35a6847e8c35073d17f451f5
2371
2370
2008-04-03T09:47:49Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3"
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
74fbee6f7200326aa9b5d27793be46107f2f8781
BIRD Data Access Protocol
0
1396
2342
2322
2008-02-26T11:40:28Z
Nguyen
15
/* Data Selection by BIRD-QL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
b3e4c7d62d8b293aa4bbf95244ec212394e54c6e
Bibliothèque interne
0
1343
2347
1711
2008-02-26T13:56:29Z
Dkieffer
2
/* UML et les Design Patterns */
wikitext
text/x-wiki
Liste des livres disponibles pour le [[LBGI]]. Adressez vous à Laetitia Gonzalez pour leur disponibilité.
=PHP=
==PHP 5 avancé==
*Editeur : Eyrolles;
*Édition : 3e édition (2 Oct 2006)
*Langue : Français
*ISBN: 2212120044
=javascript=
==Javascript: The Definitive Guide==
*Autheur: David Flanagan
*Editeur : O'Reilly Media;
*Édition : 4th (12 Fév 2006)
*Collection : Classique Us
*Langue : Français
*ISBN: 0596000480
=java=
==The Definitive Guide To Java Swing==
*Autheur: de John Zukowski
*Editeur : Apress;
*Édition : 3rd (Jui 2005)
*Langue : Anglais
*ISBN: 1590594479
==JSP Professionnel==
*Editeur : Eyrolles (7 Fév 2001)
*Collection : Wrox, solutions développeurs
*Langue : Français
*ISBN: 2212092474
==Spring par la pratique : Mieux développer ses applications Java/J2EE avec Spring, Hibernate, Struts, Ajax...==
*Editeur : Eyrolles (28 avril 2006)
*Langue : Français
*ISBN: 2212117108
==Hibernate 3.0 : Gestion optimale de la persistance dans les applications Java/J2EE==
*Autheurs: Anthony Patricio, Olivier Salvatori
*Editeur : Eyrolles (16 Jui 2005)
*Langue : Français
*ISBN: 2212116446
=R=
==Bioinformatics And Computational Biology Solutions Using R And Bioconductor==
*auteurs : Robert Gentleman, Wolfgang Huber, Sandrine Dudoit
*Editeur : Springer (Août 2005)
*Langue : Anglais
*ISBN: 0387251464
=POO=
==Conception et Programmation orientées objet==
*Autheurs: Bertrand Meyer
*Editeur : Eyrolles (22 Juil 2000)
*Langue : Français
*ISBN: 2212091117
==UML2 et les Design Patterns==
*Autheur: Craig Larman
*Editeur : CampusPress (22 Fév 2002)
*Collection : Campus Press
*Langue : Français
*ISBN: 2744013013
=Database=
==PostgreSQL: The comprehensive guide to building, programming, and administering PostrgreSQL databases==
*Editeur : Sams;
*Édition : 2nd (1 Août 2005)
*Langue : Anglais
*ISBN: 0672327562
2422889553726ae4b4c39082a0d9291f3957fb8a
Main Page
0
1279
2360
2232
2008-03-25T10:21:04Z
Moumou
17
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9813f595b6e5f071a52282fd7a0c568d25360781
Configuration minimale
0
1398
2361
2008-03-25T10:28:39Z
Moumou
17
New page: Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star: * definition des imprimantes: hp0098, hp0107 et splash ...
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
* definition des imprimantes: hp0098, hp0107 et splash
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
d4b63bed5183328d6370213bf81c65d4b49e6007
2362
2361
2008-03-25T13:20:29Z
Dkieffer
2
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
bbb68e9018d06d215d7a7ab91b20038f6702342b
R
0
1320
2365
2080
2008-03-31T10:14:57Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.6.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Mar 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.6.2 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
313142c52034e052a99ae2bb5fde463a5e8443fb
RReportGenerator English
0
1366
2366
2056
2008-03-31T10:16:53Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
3572729bf52774ff49288f11410d84d31b81fcc0
2367
2366
2008-03-31T10:19:33Z
Wraff
5
wikitext
text/x-wiki
[http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI). <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
6d1ece261b8f6dfd90920b8e9448877acd7f55fd
Tcl/Tk
0
1323
2372
1518
2008-04-04T12:46:40Z
Moumou
17
wikitext
text/x-wiki
* Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]]) il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
7710de4762e805cba2f7c203af72ad74eac8c888
File:Birdqlrules.jpg
6
1399
2378
2008-04-07T12:17:05Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Deviation.jpg
6
1400
2382
2008-04-07T12:27:23Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
BIRDQL
0
1395
2383
2371
2008-04-07T12:29:31Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3"
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
bd10c7fe80b51cbfea661e470a52fb6cc36c3a30
2385
2383
2008-04-07T12:30:24Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE "select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3"
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
b5c4d74571f0e7afaae7f94737c435e09f4e384c
2394
2385
2008-04-18T04:52:10Z
Nguyen
15
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
e4fbbc9caabf585fa024d950b8dfbf51a6632a4c
2395
2394
2008-04-18T10:03:21Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can also be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
f40b262aa7685d24be01e7e8d56b6fd8a6a17f3f
2399
2395
2008-04-23T09:05:22Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
22ff81220f0b4380961e1229f67bfd61b87b5c47
2400
2399
2008-04-23T09:05:42Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
8db78daf16cf550998299ba6dde7147a44af6e8e
2417
2400
2008-05-22T12:16:28Z
Dkieffer
2
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB <bank names>
WH Field[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all] Contains (kw1 & kw2) | kw_n
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <Field[http://d1.crihan.fr:8080/bird/bsearch?service=metadata&db=all] out>
LM <n>
FM Fasta/Flat/Xml/CSV/Simple/Object/OID
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
b56ad133e927e8e1c397ff8c7d60fc33beee3f11
2429
2417
2008-05-26T09:12:36Z
Dkieffer
2
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
0ac4e406b53044734502dda99cb942b2940622ab
File:Birdoverivew.jpg
6
1401
2384
2008-04-07T12:29:52Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Configuration minimale
0
1398
2386
2362
2008-04-07T14:46:44Z
Prigent
20
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
=Cronjobs=
* Lister les cronjobs avant la mise à jour système puis les ré-installer.
75ec7cce719c6751c7ab8b2b2d0758647cdc58fc
2387
2386
2008-04-07T14:47:32Z
Prigent
20
/* Cronjobs */
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
=Cronjobs=
* Lister les cronjobs '''avant''' la mise à jour système.
Les ré-installer après la mise à jour système.
fc7c6d58480339aa99d16b07ae9f22d92c9bba4d
2388
2387
2008-04-07T14:47:47Z
Prigent
20
/* Cronjobs */
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
=Cronjobs=
* Lister les cronjobs '''avant''' la mise à jour système.
Les ré-installer après la mise à jour système.
b832c45f90b0c109f5aa81db19ec4817e65b699c
2389
2388
2008-04-07T14:48:11Z
Prigent
20
/* Cronjobs */
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
=Cronjobs=
* Lister les cronjobs '''avant''' la mise à jour système.
Les ré-installer après la mise à jour système.
fc7c6d58480339aa99d16b07ae9f22d92c9bba4d
2390
2389
2008-04-07T14:48:31Z
Prigent
20
/* Cronjobs */
wikitext
text/x-wiki
Cette page a pour but de lister les indispensables qui doivent être installés lors d'une mise à jour système des machines Star:
=Configuration=
* Définition des imprimantes: hp0098, hp0107 et splash
=Librairies de programmations=
* DESINSTALLER (ou ne pas installer) le Tcl/Tk livré avec le système. Luc s'engage a faire lui-même l'installation de Tcl/Tk sur /usr/local, ceci afin d'éviter les conflits de version et d'installation.
* Compilateur C/C++ avec l'ensemble des librairies.
* Installation des librairies OpenGL (GL, GLX, GLut, ...).
=Applications=
*Client svn.
=Cronjobs=
* Lister les cronjobs '''avant la mise à jour système'''.
Les ré-installer après la mise à jour système.
d31f6caa1157aae8fefdcf210f9a24afeed4a336
BIRD
0
1313
2391
2381
2008-04-10T10:26:33Z
Nguyen
15
/* Data Format & DATABASE List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition.
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
1022325e43290e8eb6b2f559a46c390465269327
2392
2391
2008-04-10T14:37:17Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. download PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
7cf1e951a5d683ab29d8bcb8ff1ef6be6eceadd6
2393
2392
2008-04-10T14:38:29Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, GEO-NCBI(SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
e6bd27139536bbe9522e11b1241c03e925fb67ce
2396
2393
2008-04-18T10:05:26Z
Nguyen
15
/* Data Format & DATABASE List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==BIRD System in Action==
===Décrypthon Data Center===
====Overview====
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===MACSIMS uses the BIRDQL engine===
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
===GPS uses the BIRDQL engine===
http://gps.nucleic.fr
===Gscope utilise BIRD===
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
b178d9f23c7fafb392054f5b69e00aace920bc76
2402
2396
2008-04-25T15:02:14Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
b7244eac06281e043f648f34137854f29baa767c
2403
2402
2008-04-25T15:04:21Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
Databases: GENBANK, EST, WGS, REFSEQ, PDB, UNIPROT, MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH), UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
f2d9b9a750de6260225d9847ef06b806c4a4c0f2
2420
2403
2008-05-22T15:24:42Z
Nguyen
15
/* Data Format & DATABASE List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==Data Format & DATABASE List ==
1. GENBANK DATABASES
GBEST : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB:
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
22fb125dfff74fb1b031b7d787a44f07111022fc
2421
2420
2008-05-22T15:26:43Z
Nguyen
15
/* Data Format & DATABASE List */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASE List & Data Format ==
1. GENBANK DATABASES
''GBEST '' : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB DATABASE
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
513f0582d6d501d256f95371fe52a16b0f93387b
2422
2421
2008-05-22T15:28:31Z
Nguyen
15
/* DATABASE List & Data Format */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASE List & Data Format ==
These database below are available in BIRD System. We could exploie these data by
1. GENBANK DATABASES
GBEST : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB DATABASE
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
2668bf07b3df47a9c40f5769be6b6d4384a27009
2423
2422
2008-05-22T15:29:17Z
Nguyen
15
/* DATABASE List & Data Format */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASE List & Data Format ==
These database below are available in BIRD System. We could exploie these data by [BIRD Data Access Protocol]
1. GENBANK DATABASES
GBEST : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB DATABASE
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
2002212510094354ba3c394ea9c4c118f9edb347
2424
2423
2008-05-22T15:29:51Z
Nguyen
15
/* DATABASE List & Data Format */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASE List & Data Format ==
These database below are available in BIRD System. We could exploie these data by [[BIRD Data Access Protocol]]
1. GENBANK DATABASES
GBEST : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB DATABASE
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
d5ace9c838a012d8e16ced9ab2f98ae438a14563
2425
2424
2008-05-22T15:54:19Z
Nguyen
15
/* DATABASE List & Data Format */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==DATABASE List & Data Format ==
These database below are available in BIRD System. We could exploie these data by [[BIRD Data Access Protocol]]
1. GENBANK DATABASES
GBEST : GENBANK EST
GBWGS : GENBANK WGS
GBRL : GENNANK RELEASE
GBNEW : GENNANK NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
2. RESEQ DATABASES
REFSEQP :REFSEQ PROTEIN
REFSEQG :REFSEQ GENOMIC
REFSEQRNA :REFSEQ RNA
REFSEQNEW :REFSEQ NEW
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
3. UNIPROT DATABASES
UNIPROT :Swiss-Prot, TrEMB
4. STRUCTURE PDB DATABASE
PDB: Protein Data Bank
5. GEO DATABASE
MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
6. UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
7. ALIAS Database Names :
PROTEIN: UNIPROT +PDB +REFSEQP
REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
NUCLEOTIDE : =GBFULL
*Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
d71889666349cc77dabbf84c49deea0ce8f20a8a
2431
2425
2008-05-26T09:19:28Z
Dkieffer
2
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
549d141a4a9cf17fca8fe6e71d118caebf19465e
2432
2431
2008-05-26T09:21:44Z
Dkieffer
2
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
76d28fb880e901723f79d21f664ed2abfceb2bbe
BIRD Data Access Protocol
0
1396
2397
2342
2008-04-23T09:03:24Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
4b273b31f8d529cf993d0a8c3b2a79848128730e
2398
2397
2008-04-23T09:03:53Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Trois query service are available:
1. curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'
2. http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql
Example: http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT
http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=
ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA
3. BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
18f7fc4dd5aaeee7a3d853e9b50a40518f29bd37
2418
2398
2008-05-22T12:57:12Z
Dkieffer
2
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
## Example:
###<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
###<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
262a675b9a6fb9560a2fae44ec94d7a9fe2e4769
2419
2418
2008-05-22T13:01:55Z
Dkieffer
2
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
User can use this engine for intensive computation, download [birdql cmd].
Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
ed4a6610a7c604e12fd522b42cb28c9b32cc3a7d
2427
2419
2008-05-26T08:52:45Z
Dkieffer
2
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
// API BIRD
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
// BIRDQL CLient
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
c601b82e5cfa74b38a4a7050a0cf35747593b950
2428
2427
2008-05-26T09:01:01Z
Dkieffer
2
/* API JAVA - BIRDQL Client */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from BIRD System WEB (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient.
29be687d524b6586c4707e9ef0e5b3018fcd1bd6
Tcl/Tk
0
1323
2401
2372
2008-04-24T13:21:59Z
Ripp
1
wikitext
text/x-wiki
* Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...)
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
f31beb733955f15ee21866995c9eb453f8111621
2407
2401
2008-05-15T09:52:32Z
Ripp
1
wikitext
text/x-wiki
[[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/]
* Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...)
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
3f1dc7624831a22b2f684c368a01389b7ce29afd
2408
2407
2008-05-15T09:52:55Z
Ripp
1
wikitext
text/x-wiki
[[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
* Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...)
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
6eede2c725e79136cd98dd84cc21775cd0a77dae
Java
0
1293
2404
2042
2008-04-30T14:48:15Z
Gagniere
3
/* Manipuler le format RSF en Java */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<source lang="xml">
<?xml version="1.0" encoding="UTF-8" ?>
<rsf>
<rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
<rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
</source>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
[[Category:Programmation]]
6626b63a4d3a2cef346c147569706663f7670077
2405
2404
2008-04-30T19:02:28Z
Gagniere
3
/* Manipuler le format RSF en Java */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<source lang="xml">
<?xml version="1.0" encoding="UTF-8" ?>
<rsf>
<rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
<rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
</source>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre le Java]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
[[Category:Programmation]]
e18f7fc689929ac2eb737868ad3ca21e1f353b1d
MediaWiki:Sidebar
8
1402
2406
2008-05-02T09:37:00Z
Gagniere
3
New page: * navigation ** mainpage|mainpage ** portal-url|portal ** currentevents-url|currentevents ** recentchanges-url|recentchanges ** randompage-url|randompage ** helppage|help ** sitesupport-ur...
wikitext
text/x-wiki
* navigation
** mainpage|mainpage
** portal-url|portal
** currentevents-url|currentevents
** recentchanges-url|recentchanges
** randompage-url|randompage
** helppage|help
** sitesupport-url|sitesupport
* syntax help
** http://www.mediawiki.org/wiki/Help:Contents|Mediawiki
** http://www.mediawiki.org/wiki/Extension:Cite/Cite.php|Cite Extension
** http://www.mediawiki.org/wiki/Extension:SyntaxHighlight_GeSHi|SyntaxHighlight Extension
** http://meta.wikimedia.org/wiki/ParserFunctions|ParserFunctions Extension
d0130e2d72b7e892531dcc89b042455b898f68e6
EuroTcl
0
1403
2409
2008-05-15T09:54:52Z
Ripp
1
New page: The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/] will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
529034e1bf68b22dec28e2a7ae26e37d7628611d
2410
2409
2008-05-15T12:21:51Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
Presentation from Raymond Ripp
de218760040028736b4d46e3d29e85a5100d5929
2411
2410
2008-05-15T15:05:08Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
==Presentation from Raymond Ripp==
Biology studies are no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treament such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites.
0226677bd90b9d7306a8d18b9ad009c46dfea4ea
2412
2411
2008-05-15T15:18:26Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
==Presentation from Raymond Ripp==
Biology studies are no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treaments such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of high throughput data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites.
After a brief description of this context we will present how we tried to in a collaborative
71283806c77800e1ebbfc258714e7996aa934ede
2413
2412
2008-05-15T16:33:19Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
==Presentation from Raymond Ripp==
Biology studies are no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI) we developped, in Tcl/Tk, the tools allowing the analysis and management of the huge amount of heterogeneous data produced locally or by numerous worldwide bioinformatic centers. It concerns various types of data such as genomic sequences, from single protein to whole genomes (3.4 GigaBases for the human genome) with their complex associated information stored in flat files, html pages or more or less well structured databases as well as sets of experimental results or data treaments such as transcriptomics data, comparison searches, multiples alignments, image processing, etc. This necessitated the development of high throughput data retrieval, analysis and data mining tools, graphical interfaces and displays as well as specific databases and websites.
After a brief description of this context we will present our Tcl/Tk developments made since 10 years by around 15 people including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allow to make progress quickly.
ce9afa547afa4b76ff47e6ef8cbcb101f223fe55
2414
2413
2008-05-16T07:23:17Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
will be held in IGBMC, Illkirch Strasbourg, France June 6-7 2008
==Presentation from Raymond Ripp==
Research in Biology is no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites.
After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress.
d6f55aacedccb2caa083fbcbebf0907d083967db
Main Page
0
1279
2415
2360
2008-05-20T13:19:24Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/LBGIki LBGIki] wiki top secret du LBGI.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
5891912812bc99a228444612b02206a77896c58f
2416
2415
2008-05-20T13:19:59Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérez les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9405604bf606b038b8ec7967d1831f4483ef8fbc
Café des sciences
0
1322
2426
1657
2008-05-23T13:51:41Z
Ripp
1
/* par web */
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demender à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit ouragan ou récemment star6 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
3e6dd972832a8905733432aa6c447e947dfc2e3b
Bird Databases List
0
1404
2430
2008-05-26T09:18:15Z
Dkieffer
2
New page: These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]] =GENBANK DATABASES= *GBEST : GENBANK EST *GBWGS : GENBANK WGS *GBRL ...
wikitext
text/x-wiki
These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
089f0576698d1d175903e152e0ff94e436880161
Bird Website
0
1367
2433
1939
2008-05-26T09:22:22Z
Dkieffer
2
wikitext
text/x-wiki
THe Bird Website is under development
[[Category:Bird_project]]
65e17e18a432acf5242788f86ad909d3dc048bf0
BIRD Development
0
1397
2434
2331
2008-05-26T09:22:46Z
Dkieffer
2
wikitext
text/x-wiki
===Origin [[BIRD]] System===
[[BIRD]] was based on main principe of Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32].
SAADA - Systèm d’Archivage Automatique des Données Astronomiques
First Goal : Archive & Exploitation of Data of the European XMM Newton satellite [http://xcatdb.u-strasbg.fr/2xmm/home].The 2XMM catalogue of X-ray sources,
the largest of its kind ever, has now been released.
In a PhD Framework (2002-2005, Prototype Saada V.1.3) of Dr.NGUYEN at University of Strasbourg I,Supported by the
CNES[www.cnes.fr] and the Alsace Region, Supervised by Dr. Michel and Dr.Motch.
[[Image:saada_bird.jpg]]
===Conceptual Data Model===
In order to automatically integrate heterogeneous data, we have designed several business data model corresponding to the real format of the data banks. Figure below illustrates the conceptual data model of the BIRD system. It can simultaneously host several bank types. Each type can itself concern several User Defined banks having the same format. Thanks to this conceptual model, BIRD can host different versions of a given data bank and manage them so that the programs launched on grid computing within an application can exploit the same data version during their computation time.
[[Image:model1.jpg]]
The data model of a data bank is predefined in an XML configuration file . This metadata is used to create the Java and SQL code. The code generation is launched at the moment of the configuration of the BIRD data bank or at data loading or reloading. In the example given figure 3, the metadata of Genbank are used to create Genbank-EST, Genbank-Refseq.
[[Image:model2.jpg]]
This Figure illustrates the business model for Genbank. Each bank can have several associated entries. Each entry has its associated information like Dbref, SEQData, FTSource,... According to our design, the Java classes of the business models are automatically generated by BIRD. Only instances of classes inherited from super ObjectPersistence will be recognized by the BIRD API. This super class contains common attributes and methods for all generated classes.
===Query Engine===
===Data Integration===
[[Image:integration1.jpg]]
The creation of a database goes through some principal stages :
Initially the relational schema system (meta-model) is created when BIRD is installed.
In the second phase, the configuration module creates the business data model including SQL and Java codes corresponding to the predefined metadata given by the XML configuration. Then, the system analyzes some integration rules to select the data files and proceed to their conversion and loading into the relational tables .
===Architecture===
[[Image:bird_arch.jpg]]
===Key Technologies===
Relational Core store
IBM DB2 WareHouse V9.1
WebSphere Federation Server
WEB Server & Services
IBM WebSphere Application Server ( main Portal)
Tomcat Server (services, non graphic)
Hibernate and JSF-Java Server Face
Object Relational Mapping
Web component
XML & JAVA
===Project Distribution===
Not net to public
[[Category:Bird_project]]
d905a0f2cbcbc65694ecd7b7186e5dd1e214efff
BIRD Data Access Protocol
0
1396
2435
2428
2008-05-26T09:24:45Z
Dkieffer
2
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from [[Bird Website | BIRD System WEB]] (under construction)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient.
[[Category:Bird_project]]
cdc1abbd48c4dab2737ae55a6914855c9f50edb0
2440
2435
2008-06-02T17:58:38Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from [[Bird Website | http://bird.u-strasbg.fr:8080/birdweb/]] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://bird.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient.
[[Category:Bird_project]]
748cfa2acd824c2941bbf2d52b3e98e0c20d5d29
2441
2440
2008-06-02T17:59:20Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from [[Bird Website | http://decrypthon.u-strasbg.fr:8080/birdweb/]] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient.
[[Category:Bird_project]]
0e3cd94782d08529f24bf3bffb9d69edbd3c5edd
2442
2441
2008-06-02T18:00:12Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient.
[[Category:Bird_project]]
e57ca37bd6cead0384aab1fbee101205d4e24ad6
2469
2442
2008-06-09T13:46:03Z
Dkieffer
2
/* BirdHttpClient */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
dbcfedabee870219971122249402653f273ab0b1
2470
2469
2008-06-09T14:33:05Z
Nguyen
15
/* BIRD Data Access Protocol */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
eb8e80884d4571fd4774f13851d2948289d714a4
2471
2470
2008-06-09T14:33:26Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb] (firefox)
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
9856d9b122a98b1b68436873619f1b7691b57e77
2472
2471
2008-06-09T14:33:33Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
cf25ef6d46ce4555399f1c795c3199b343d4bc3b
2476
2472
2008-06-13T15:56:04Z
Nguyen
15
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr:8080/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
54ff2a088b11da6d35107de6c8e25e5e3ad1e5b3
Bird Databases List
0
1404
2436
2430
2008-05-26T09:25:04Z
Dkieffer
2
wikitext
text/x-wiki
These database below are available in BIRD System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
[[Category:Bird_project]]
845b5506271322778ef7fdd553e50e750622847d
2438
2436
2008-05-29T16:18:08Z
Dkieffer
2
wikitext
text/x-wiki
These database below are available in [[Media:BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
[[Category:Bird_project]]
f36bb2e51d3c6edf3ec708b04b36a2760bba5d19
2439
2438
2008-05-29T16:18:26Z
Dkieffer
2
wikitext
text/x-wiki
These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
[[Category:Bird_project]]
13240edb8fb1a14ff84a93c9ffea2edda76b9697
Category:Bird project
14
1405
2437
2008-05-26T09:27:34Z
Dkieffer
2
New page: BIRD System [[BIRD]]: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC Strasbourg.
wikitext
text/x-wiki
BIRD System [[BIRD]]: Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC Strasbourg.
231305a1db95fa643269fa4a394772b77dabcd21
BIRD
0
1313
2443
2432
2008-06-04T06:50:21Z
Nguyen
15
/* BIRD KDD-Knowledge Discovery */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
===MAP Semantic===
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
3a4d3673067efbde24cb95b8158615fd38c0a26f
2444
2443
2008-06-04T06:51:41Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
===[MAP Semantic]===
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
b20a8e800572b1eab50975a9b7ab446b589ab4d0
2445
2444
2008-06-04T06:52:05Z
Nguyen
15
/* [MAP Semantic] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[MAP Semantic]==
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
c02d0e8b5532be5ad42fc8a3a86dc7859cc078ff
2446
2445
2008-06-04T06:52:19Z
Nguyen
15
/* [MAP Semantic] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
cdf320af0c8112c7fda562d1bd0993a616a4fb45
2453
2446
2008-06-04T09:03:10Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==MAP Semantic==
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
6a9bef6675ece078f316359a909737b3b3ef1080
2454
2453
2008-06-04T09:04:21Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==MAP Semantic==
[[Image:Carte.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
23b56e2883db7fb1eddec3e46fe291adb3e1f58b
2455
2454
2008-06-04T09:04:46Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[MAP Semantic]==
[[Image:Carte.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
69150c1aa71d2d5fcf312f3549952f36b638f86b
2456
2455
2008-06-04T09:04:59Z
Nguyen
15
/* [MAP Semantic] */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
1e90c005ba66dfe8bb473315350e21f765ab3561
2459
2456
2008-06-04T09:13:34Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
ad0a12a95ffd07a484ba679e8e49105ceee564be
2460
2459
2008-06-04T09:16:30Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
104405612853aae527b6e62bd06d69095377c3aa
2461
2460
2008-06-04T09:27:31Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data [[Bird_Databases_List]] and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
9dd26ba0a8c57c587e2753b28b1de520cc085d02
2462
2461
2008-06-04T09:27:52Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do] [http://decrypthon-1.ens-lyon.fr:9080/BirdSystem/HomePage.do] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
1b1fba3abb5a3107bf9eb5708748a0ac4dee16c2
2467
2462
2008-06-09T11:14:44Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:9080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
e8b64829bf462ad725212e8e16083b9e25022332
2468
2467
2008-06-09T11:14:55Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==Décrypthon Data Center==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
89a0482c0e0caa555979d27c05b5ff6771f51273
MAP Semantic
0
1406
2447
2008-06-04T06:54:18Z
Nguyen
15
New page: [[Image:Carte.PNG]]
wikitext
text/x-wiki
[[Image:Carte.PNG]]
4a7581d8dea79f87555f25b5ba3a0e7d4afffa92
2449
2447
2008-06-04T06:57:21Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
9ccdf9c48dd61274c6fbf5c3173338c8708826cb
2452
2449
2008-06-04T07:00:20Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
This project is under development
a195256dab0d57f97123f86a8a24b8478afff15d
2457
2452
2008-06-04T09:10:11Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the
distribution of genes and their various annotations in the warehouse (protein families, organism, motif
composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic
networks that will contribute to the construction of the semantic framework of the project. In particular it
should be helpful for guiding the subsequent relational data mining step.
This project is under development
4207463099c6ecf261c9e74105a8d73363c0068c
2458
2457
2008-06-04T09:12:00Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the
distribution of genes and their various annotations in the warehouse (protein families, organism, motif
composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic
networks that will contribute to the construction of the semantic framework of the project. In particular it
should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker&Hoan Nguyen ,...)
f27fcca34a55066402422339677337d9bead3944
2463
2458
2008-06-04T09:29:51Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the
distribution of genes and their various annotations in the warehouse (protein families, organism, motif
composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic
networks that will contribute to the construction of the semantic framework of the project. In particular it
should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker ,Hoan Nguyen ,Jeremy Trouslard..)
738a8a2fc83a146b679f503dee3b75514ae88488
File:Carte.PNG
6
1407
2448
2008-06-04T06:54:52Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Carte.jpg
6
1408
2450
2008-06-04T06:57:32Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
2451
2450
2008-06-04T06:58:16Z
Nguyen
15
uploaded a new version of "[[Image:Carte.jpg]]"
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
Main Page
0
1279
2464
2416
2008-06-05T13:59:48Z
Berthomg
8
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://alnitak.u-stasbg.fr/dbgs DBGS]
* [[Alvinella]]
* [http://www-genoret.u-strasbg.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ab327693bd8bc60ef9d98dd218b2f0da293f2b00
Java
0
1293
2465
2405
2008-06-09T09:03:45Z
Dkieffer
2
/* Documentation */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<source lang="xml">
<?xml version="1.0" encoding="UTF-8" ?>
<rsf>
<rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
<rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
</source>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
[http://java.developpez.com/livres/javaEnfants/ Programmation Java pour les enfants, les parents et les grands-parents], indispensable pour débuter!
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre tous les secrets de Java!]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
[[Category:Programmation]]
72a4caf3def61d5426de19aa1d0a6ae2ba134281
2466
2465
2008-06-09T09:05:26Z
Dkieffer
2
/* Librairies */
wikitext
text/x-wiki
Langage de [http://fr.wikipedia.org/wiki/Programmation_orient%C3%A9e_objet programmation orientée objet].
==Où trouver les fichiers pour l'execution?==
Disponible en 1.4 dans "/usr/opt/java141/bin" sur [[beaufort]].
Installé en 1.6 sur les [[Star]], [[Kilida et Alnitak]]
A noter qu'une version de java1.5 linux est disponible sur /groupes/poch/albou/jdk1.5.0_09/bin/java .
==Projets internes liés à Java==
*[[IBISSA]]
*[[BIRD]]
*[[JMacs]]
*[[JavOO]]
==sources internes==
===Manipuler le format RSF en Java===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RsfSaxParser.java Le RsfSaxParser pour traiter le RSF comme un Xml]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/ToolsBiojava/RSFExample.java Un exemple d'utilisation pour transformer un fichier RSF en XML (necessite la librairie JDom)]
**[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un Objet Biojava Alignment en format rsf.]
**Exemple de fichier XML généré
<source lang="xml">
<?xml version="1.0" encoding="UTF-8" ?>
<rsf>
<rich_sequence name="nom" longname="nomLong" descrip="description" type="PROTEIN" sequence-ID="acces"
checksum="9639" creator="monauteur" offset="3" creation_date="07/07/2006 11:49:07">
<comments>Voici mon test mon jolie commentaire</comments>
<feature begin="20" end="23" color="0" shape="circle" fill="t_hash" keyword="mot_cle">commentaire du
feature</feature>
<sequence>MCDEDETTALVCDNGSGLVKAGFAGDDAPRAVFPSIVGRPRHQGVMVGMGQKDSYVGDEAQSKRGILTLKYP</sequence>
</rich_sequence>
<rich_sequence name="TesProtein" type="PROTEIN" checksum="0" offset="1" creation_date="07/07/2006 14:13:45"
strand="1">
<comments>Voici ma deuxieme sequence</comments>
<sequence>MSGGTTMYPGIADRMQKEITALAPSTMKIKIIAPPERKYSVWIGGSILASLSTFQQMWITKQEYDEAGPSIVHRKCF</sequence>
</rich_sequence>
</rsf>
</source>
===Fonctions BioJava utiles===
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentFromFileMSF Recuperer simplement un objet Alignment d'un fichier MSF.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#getAlignmentMap l'Alignment en Map.]
*[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#writeAlignmentInRSF Enregistre un alignement en format rsf.]
==Librairies==
[http://www.jdom.org/ Jdom (pour manipuler aisément du XML)]
[http://biojava.org/wiki/Main_Page Biojava]
[http://www.jfree.org/jfreechart/ JFreeChart Création de graphiques (histogrammes, camemberts, ...)]
[http://blog.developpez.com/adiguba?title=runtime_exec_n_est_pas_des_plus_simple Shell, une API pour lancer des commandes shell en java.]
[[JRI]] est une bibliothèque JNI ( bibliotheque Native ) pour passer les objet Java dans R et vice-versa.
==Librairies internes==
Pour des raisons de compatibilité ces librairies sont compilées en Java 1.5.<br/>
N'hésitez pas à les améliorer (changer le numéro de version quand même..).
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#ProgRunner ProgRunner_2.0 Pour jouer avec les commandes systèmes.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#toolsfile ToolsFile_1.2.0 Pour manipuler les fichiers.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#jama Jama1.4_1.0.0 Pour le calcul matriciel en Java1.4.]
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/Librairie/librairie.html#grappa Grappa Pour générer des graphes de type graphviz]
[http://www-bio3d-igbmc.u-strasbg.fr/~huault/TutorialQueryBuildrer.htm API java permettant d’interroger une base de données via une interface graphique simple représenté par un arbre ]
==Documentation==
[http://java.developpez.com/livres/javaEnfants/ Programmation Java pour les enfants, les parents et les grands-parents], indispensable pour débuter!
Les [[Bibliothèque interne#java | livres]] disponibles au laboratoire.
[http://www-bio3d-igbmc.u-strasbg.fr/~dkieffer/TIJ-3rd-edition-html/TIJ3.htm Thinking In Java Pour apprendre et comprendre tous les secrets de Java!]
[http://java.developpez.com/faq/java/?page=sommaire La faq de developpez.com sur java (indispensable pour les débutants et les confirmés!)]
[http://java.sun.com/javaee/5/docs/tutorial/doc/JavaEETutorial.pdf Un tutorial à télécharger pour apprendre le J2EE ]
==Liens==
[http://java.sun.com/ site officiel de sun]
[[Category:Programmation]]
9ff94d646a2bb47fe3823b6ba22d962b851f3bca
Gscope
0
1287
2473
1559
2008-06-13T15:28:15Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
7af2f8bca517c51594cd36c9c92a5c06a7cbf37a
GeneNames
0
1409
2474
2008-06-13T15:51:01Z
Ripp
1
New page: GeneNames are the most important link between genes ... Gscope has now following functions to manipulate the gene names. * HGNC integrates a download from the [http://www.genenames.org/...
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names.
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
c3edc4fd8f88479c28109021be368c5c43e35a4d
2475
2474
2008-06-13T15:54:10Z
Ripp
1
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
==Test it==
* get all about Pax6 in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&Pax6 Mouse] in the [Human
]
814dbfd31a4b9954d702d1b69f2ccdd0a0ec8e77
2477
2475
2008-06-13T16:01:00Z
Ripp
1
/* Test it */
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
==Test it==
* get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HUmanFromMouse&RdCVF&GeneName Human]
52ab08eb1d73dd1b4d70a1a9eb43fef805b81dfd
2478
2477
2008-06-13T16:01:25Z
Ripp
1
/* Test it */
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
==Test it==
* get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HumanFromMouse&RdCVF&GeneName Human]
958f5b6ac33c086dd09ad402c70fe569ed290dde
BIRDQL
0
1395
2479
2429
2008-06-17T07:24:27Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY
ID Q32437 DB UNIPROT
FD AC,DR(GO)
Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
DR GO; GO:0009523; C:photosystem II; IEA:UniProtKB-KW.
DR GO; GO:0008137; F:NADH dehydrogenase (ubiquinone) activity; IEA:InterPro.
DR GO; GO:0048038; F:quinone binding; IEA:UniProtKB-KW.
DR GO; GO:0042773; P:ATP synthesis coupled electron transport; IEA:InterPro.
a68cfd906c9626f087c3e3b7bf1ae240dc24c66e
2480
2479
2008-06-17T07:28:26Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
63208a4b6aa1a348e8554be90e87ec9bb127aaf1
2481
2480
2008-06-17T07:28:46Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
cfa451400f76119b39d5fe1dffd862acfb40a050
2482
2481
2008-06-17T07:29:03Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
0147a06bd5fd34a230c83c06896d10f0363dc8d1
R
0
1320
2483
2365
2008-06-17T11:11:12Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.7.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Jun 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.7.0 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
f7bc828396c89a4fc5d41b25dbc035f79c880ba6
Wolfgang Raffelsberger
0
1339
2484
2071
2008-06-17T11:16:12Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]),
Department of Structural Biology and Genomics ([[DBGS]], CNRS UMR7104),
at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]),
du Départment de Biologie et Génomique Structurales ([[DBGS]]),
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br>
Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining
e-mail : wolfgang.raffelsberger (at) igbmc.fr
2e0fd3fdccaa5328ab329a57a95181cc9b035ac3
GeneNames
0
1409
2485
2478
2008-06-17T14:28:22Z
Ripp
1
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&MouseFromHuman&RdCVF&GneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?UCSCGenomes&HumanFromMouse&RdCVF&GeneName Human]
516c7959e2ed16db35f3ea5ddc08970e5456cb6d
2486
2485
2008-06-17T14:50:05Z
Ripp
1
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?MGI&RdCVF Mouse] in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?HumanFromMouse&RdCVF&GeneName Human]
38e90a3f7bdbe5eaa57a8a991760a19ca33fa89c
2487
2486
2008-06-17T14:52:03Z
Ripp
1
/* Test it */
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
aee89383c2f43ce9ad914262adbb66acef6a3629
BIRD
0
1313
2488
2468
2008-06-19T04:46:44Z
Nguyen
15
/* Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==[[Décrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
9251d140cd90dcf8abc78cc71419a708bb1e3228
2490
2488
2008-06-19T04:48:29Z
Nguyen
15
/* Décrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr:8080/birdweb] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
6e05c6f40290fdad9fe5d0a5d2908f3c0cb663aa
2511
2490
2008-06-19T06:06:40Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
===Databases public===
===Services===
===supports===
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
af70b485336259acefeafbdfdf047ab3d812670d
2513
2511
2008-06-19T06:09:47Z
Nguyen
15
/* Decrypthon Data Center */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen ,...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
1dd660d4ae5aa204b08a80ce1e1a346662b2a9be
Décrypthon Data Center
0
1410
2489
2008-06-19T04:48:02Z
Nguyen
15
New page: =Overview= [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, O...
wikitext
text/x-wiki
=Overview=
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
==Databases public==
==Services==
==supports==
d794e0adb83bdcb5790450de4b56510dbcc01b19
Decrypthon Data Center
0
1411
2491
2008-06-19T04:48:49Z
Nguyen
15
New page: ==Overview== [[Image:ddc_idea.jpg]] The BIRD System represents the core of the Décrypthon Data Center. Sharing of large scale biological data for applications (Macsims, MS2PH, Magos,...
wikitext
text/x-wiki
==Overview==
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
==Databases public==
==Services==
==supports==
626acdd970c7b860f515a5a32c9b12db6307f917
2492
2491
2008-06-19T04:51:37Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
==Databases public==
==Services==
==supports==
6babb7d3b4f8a9557d9e80b34f2f41fc4831635a
2493
2492
2008-06-19T04:53:03Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://bird.u-strasbg.fr:9080/BirdSystem/HomePage.do
[[Image:bird_ddc.jpg]]
==Databases public==
==Services==
==supports==
104608f48c0d71a25a86e732ac38802274a9ec96
2494
2493
2008-06-19T04:55:13Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Databases public==
==Services==
==supports==
78f5e23e001c2e415c9cb41a46bb3c3dd83b7567
2495
2494
2008-06-19T04:57:57Z
Nguyen
15
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Contraints of thi Center==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Services==
==supports==
fbcfc54b6cfc556dd9cd28eb12cf84ece05716c7
2496
2495
2008-06-19T04:58:27Z
Nguyen
15
/* Contraints of thi Center */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Constraints of thi Center==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Services==
==supports==
c3a976dcfad0ce979b9101b8dc6a7355b522c0c6
2497
2496
2008-06-19T04:58:51Z
Nguyen
15
/* Constraints of thi Center */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities of thi Center==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Services==
==supports==
36c3002cbba11baf9ef33087a3d5e41da69d66ea
2498
2497
2008-06-19T05:03:12Z
Nguyen
15
/* Services */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities of thi Center==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==supports==
79d9073e9a5bae4d9d76df2287cda83d7f947d70
2499
2498
2008-06-19T05:03:36Z
Nguyen
15
/* Functionnalities of thi Center */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==supports==
58e98ee3ac305c003ed5499946433af82189e205
2500
2499
2008-06-19T05:05:55Z
Nguyen
15
/* supports */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
MACSIM software (IGBMC & Decrypthon)
....
656cc692d07ebb26f3aa5d3a0b68ea7fc30d1b26
2501
2500
2008-06-19T05:08:04Z
Nguyen
15
/* Exploitations */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Lab
-Ordali software
-Macsim
-Gscope
-....
...
46a2653c402d5b038c4405741db660513a191b8a
2502
2501
2008-06-19T05:08:24Z
Nguyen
15
/* Exploitations */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits (Thompson et al., 2006) (Plewniak et al., 2003) have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
05edc4dc038e3ca3132ad8bb851098375fd855bb
2503
2502
2008-06-19T05:09:45Z
Nguyen
15
/* Functionnalities */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:bird_ddc.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
8e6578c6f42d9537cb70ad5818a701b7708a902e
2504
2503
2008-06-19T05:12:22Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, BIRD is the core of centre (figure xx). BIRD uses DB2 as indexing and very large data storage unit. BIRD provides API Java and query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language BIRD-QL via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
daf1e564b7f0b56502639b269663bc8069cef8ff
2505
2504
2008-06-19T05:15:14Z
Nguyen
15
/* Implementation */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These biological datasets are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
1e7253c9cdcccd5535f575730176a923d0383df8
2506
2505
2008-06-19T05:17:13Z
Nguyen
15
/* Functionnalities */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
70a89b7f8e77bf32cde6108bfab4b9deaaee6d88
2507
2506
2008-06-19T05:17:30Z
Nguyen
15
/* Implementation */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
ece32c1db15e69ef875f4f0b51a6b79d52281453
2508
2507
2008-06-19T05:19:41Z
Nguyen
15
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/query.do
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
6f2f4b99204e2b2bda951cbb917d798284cac163
2509
2508
2008-06-19T05:21:12Z
Nguyen
15
/* Overview */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
69fbdf2e3ed52834c5bfc06d3b64117c779f9f9d
2514
2509
2008-06-19T06:17:34Z
Nguyen
15
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
Nguyen Ngoc Hoan,PhD
Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
ca9fbd5e59afc68dc2e937e980e9f4459d1d12d5
2515
2514
2008-06-19T06:18:15Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
Nguyen Ngoc Hoan,PhD
Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
fad4a6baafb066ef9723863d33787f0401b79023
2516
2515
2008-06-19T06:18:29Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
Nguyen Ngoc Hoan,PhD
Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
2fd1543a1c74c36f9f9cbeb73787a2965bfa483c
2517
2516
2008-06-19T06:19:02Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
Nguyen Ngoc Hoan,PhD
Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
85a342c629c8f100dbddf87ae76b46ec508b27b6
2518
2517
2008-06-19T06:21:34Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
Nguyen Ngoc Hoan,PhD
Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
eda1a4ff7ea50d274fb85a08c9a61b2d5f267b0e
2519
2518
2008-06-19T06:22:55Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
Nguyen Ngoc Hoan,PhD
Leader of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
d82f18ceb794ff8192f9d478d473744883966a9c
2520
2519
2008-06-19T06:23:13Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
NGUYEN Ngoc Hoan,PhD
Leader of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
a5698b60b30c25af770f36ce43180cb38d3e753e
2523
2520
2008-06-20T04:51:43Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
NGUYEN Ngoc Hoan,PhD
Architect/Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
72bd7dc192ba3287069985f2ebf89a4a4379e260
2524
2523
2008-06-20T04:54:29Z
Nguyen
15
/* Contact */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
FACCI Hervé
Senior Consultant
IBM Global Business Services / Ile de France
Tel : #33 (0)1 49 05 69 76 (33-6976)
Cell : #33 (0)6 72 75 23 27
hfacci@fr.ibm.com
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
NGUYEN Ngoc Hoan,PhD
Architect/Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
70fb9b7d26cf1d68bac0ffca83c9c7f32d8e4e91
2525
2524
2008-06-20T04:55:55Z
Nguyen
15
/* Exploitations */
wikitext
text/x-wiki
==Overview==
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. Thus, modern biomedical information corresponds to a high volume of heterogeneous data that doubles in size every year (Statistics NCBI) and that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon), resulting from a collaboration between AFM/CNRS/IBM, has been instigated, firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres of French universities and, secondly to provide a facilitated access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a strong computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to manage automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management (called Decrypthon Data Center).
[[Image:ddc_idea.jpg]]
The BIRD System was used to implementation of Décrypthon Data Center
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
web server: [http://decrypthon.u-strasbg.fr/birdweb/query.do]
[[Image:ddc_architecure.jpg]]
==Functionnalities==
The Decrypthon Date Center is be able to manage databases of various types, the table 1 details the data banks often used by biologists. These [[Bird_Databases_List | biological datasets]] are widely distributed over Internet and made available in different formats. The integration system must be able to cope with five strong constraints:
• Volume of the data: the public biological information consists of genome and gene sequences, protein structures and sequence alignments representing more than one terabyte.
• Heterogeneity and management of the data: ranging from three-dimensional models and sequence alignments, up to images of gels and scientific articles, these data are provided in different formats. This requires the developments of specific parsers corresponding to each data type. Additionally the data generated by the scientific projects have to be stored and indexed in real time.
• Safety and confidentiality: The system must also integrate clinical databases. For obvious questions of confidentiality and ethics, it is not always possible to duplicate such databases or to transfer sensitive data on the networks. The pertinent information thus remains under the control of the owners who allow a restricted access to the remote database.
• Interoperability capacities: In bioinformatics, many toolkits have been developed with different programming languages and are composed of several independent software components sharing the same data through different protocols. Thus the system must provide an easy access for these external softwares through independent methods such as http service, web service or API.
• Query expression and treatment: the system must also provide a simple protocol allowing users, which are generally not computer scientists, to express easily their query or retrieval protocol on data banks without knowing the structure of the relational database. This protocol should be written in flat files or XML format in order to reuse it in any other data warehouse created by the same integration system.
==Implementation==
The data centre is integrated directly in the Decrypthon computing grid in order to efficiently share all the data necessary for the biological applications requiring a strong potential for calculation and storage. The Decrypthon data centre contains a local database of nucleotide, genomic and proteomic sequences. It provides access methods for heterogeneous and distributed data, as well as a treatment of queries, and data analysis tools.
In this project, [[BIRD]] is the core of centre (figure xx). BIRD uses IBM DB2 as indexing and very large data storage unit. BIRD provides query services for several high level applications. BIRD is installed with the storage node of computing grid. WebSphere Federer Server-WFS (called federation database) is used to integrate the remote clinical database hosted by Universal Mutation Database-UMD software. This federation database communicates with each data source by means of software modules called wrappers. A wrapper contains characteristics about a specific data source. It provides a DB2 relational model for the remote data and assists the federated engine in query processing by sending sub-queries to the remote data source.
The “Registrer” module allows us to automatically publish metadata and important information of a remote database. Thanks to this module, WFS system generates the virtual relational schema according to the remote database. It will be also possible for us to search metadata of a recorded data source.
Figure 1 et 2 illustrate the data centre implemented by BIRD which makes integration of data of various sources and shares these data for the applications which run on the grid computing and for the biological community. The centre shares its data integrated with applications/clients and users of several manners: via an API Java, of a Web interface (figure 3) as well as language [[BIRDQL]] via orders HTTP.
==[[Bird_Databases_List | biological datasets]]==
==Exploitations==
MS2PH & MS2PH-DB Project
MYOBASE (in project)
LGBI Laboratory
-Ordali software
-Macsim
-Gscope
-....
...
==Contact==
TOURSEL Thierry, PhD
Project Manager
AFM Association Française contre les Myopathies
Direction Scientifique
1 rue de l'Internationale
BP59 91002 Evry cedex
FRANCE
Tel (33) 1 69 13 22 23
Fax (33) 1 69 13 22 22
FACCI Hervé
Senior Consultant
IBM Global Business Services / Ile de France
Tel : #33 (0)1 49 05 69 76 (33-6976)
Cell : #33 (0)6 72 75 23 27
hfacci@fr.ibm.com
POCH Olivier,PhD
Director of LGBI Laboratory
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:poch@igbmc.fr poch@igbmc.fr]
Tel: 0033 388653302
NGUYEN Ngoc Hoan,PhD
Architect/Administrator of Decrypthon Data Center
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
dcdc8e6b621513a9bfb2b92d9b6e7703939e793e
BIRDQL
0
1395
2510
2482
2008-06-19T06:04:34Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
e425a552232eb81a742dd222be609d8d63208d2f
2526
2510
2008-07-07T14:47:57Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
76c00da9fb3ace5c09b39a2f2baff10ad0feef52
2527
2526
2008-07-07T14:48:08Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
46077866772fc3a636e83e05a98c473bf87af710
2528
2527
2008-07-07T14:50:35Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
8155f60c860821274856c9b46bd9bd1f747936f2
2529
2528
2008-07-07T14:51:56Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
28fb4e63e569a1341293abd9297865724c52fdaf
2530
2529
2008-07-09T19:54:48Z
Dkieffer
2
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field out>]>
LM <n>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
ebe37d9803644e6e29589de9d4e3f8f2dfc31698
Bird Databases List
0
1404
2512
2439
2008-06-19T06:08:24Z
Nguyen
15
/* OTHER */
wikitext
text/x-wiki
These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, Alignments, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
[[Category:Bird_project]]
27493d02383fb222839943703e3613b707be8902
BIRD Data Access Protocol
0
1396
2521
2476
2008-06-19T08:01:00Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
under construction: [http://decrypthon.u-strasbg.fr:8080/birdweb]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
e497d311c34b960868c5e3d76fa8db791aa52156
2522
2521
2008-06-19T08:01:54Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
921d0ecaa9ca87ac5bf91439d172e64a0e4ec62c
File:Carte.jpg
6
1408
2531
2451
2008-07-18T11:04:59Z
Nguyen
15
uploaded a new version of "[[Image:Carte.jpg]]"
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Carte2.jpg
6
1412
2532
2008-07-18T11:07:21Z
Nguyen
15
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
File:Carte.jpg
6
1408
2533
2531
2008-07-18T11:10:52Z
Nguyen
15
uploaded a new version of "[[Image:Carte.jpg]]"
wikitext
text/x-wiki
da39a3ee5e6b4b0d3255bfef95601890afd80709
MAP Semantic
0
1406
2534
2463
2008-07-23T13:27:12Z
Nguyen
15
wikitext
text/x-wiki
[[Image:Carte.jpg]]
The BIRD data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the
distribution of genes and their various annotations in the warehouse (protein families, organism, motif
composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic
networks that will contribute to the construction of the semantic framework of the project. In particular it
should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker ,Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
38f26276ee3a4b4c13c0e7d05615449745bc1ecb
BIRD
0
1313
2535
2513
2008-07-23T13:28:16Z
Nguyen
15
/* MAP Semantic */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
535a8f8595f70ac52e81dd2eb93667e7a8e7b1ec
2571
2535
2009-03-07T06:15:39Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint and PDF Presentations==
1. BIRD System presentation (powerpoint, at ENS -Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
7124be10686ed3aee40524dfbf270bc56a24e300
2572
2571
2009-03-07T06:57:56Z
Nguyen
15
/* Powerpoint and PDF Presentations */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
05235383037bcf7c5b6eb2e8ee250dc8797cd659
2573
2572
2009-03-07T07:09:13Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
2. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf]
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
3f642cfe5dbb76216ce911e39ed6f6b6e0bdd938
2574
2573
2009-03-07T07:09:28Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
3. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf]
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
44685f86708737b2d588cd6ca05016e0889e277c
2576
2574
2009-03-13T15:53:24Z
Nguyen
15
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. "Conception of the BIRD System" is preparing for .....
3. "BIRDQL-A new Biological Query Language " is preparing for....
3. "Semantic Map and BIRD System" is preparing , See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPaper.pdf]
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
69511a5226382ff3549f1af4941d638a7ff952f3
Unix
0
1312
2536
2018
2008-09-11T07:47:39Z
Dkieffer
2
/* Script bash */
wikitext
text/x-wiki
Type de systèmes d'exploitations, comme MacOS ou Linux.
C'est ce genre de système qui est installé sur nos serveurs.
=Commandes Unix=
tapez ''man [commande Unix]'' pour plus de précision sur les commandes<br/>
ou ''apropos [nom]'' pour une description rapide des commandes contenant ''nom''.
==Manipulation des fichiers et des répertoires==
{| border="1"
! Commande Unix !! Utilisation
|-
|pwd
|Affiche le répertoire courant
|-
|cd [nom_répertoire]
|Change le nom du répertoire courant. Sans argument, ramène au répertoire d'accueil
|-
|pushd nom_répertoire
|Change le nom du répertoire courant et ajoute ce nom à la pile des répertoires
|-
|popd
|Change le nom du répertoire courant en utilisant le sommet de la pile des répertoires et retire ce nom de la pile des répertoires
|-
|ls [-ailst] [nom_fichier[s]]
|Affiche les informations relatives au(x) fichier(s) et au(x) répertoire(s) dont les noms sont données en argument, les fichiers correspondant à un critère précisé par les options
|-
|du [-s] nom_fic[s]
|Affiche la taille d'un (de plusieurs) fichier(s). L'option -s permet d'avoir la somme des tailles, très utile notamment lorsque nom_fic est un nom de répertoire.
|-
|df nom_fic[s]
|Affiche le taux d'occupation du (des) systèmes de fichier(s). Si un (des) nom(s) de fichier(s) est (sont) précisé(s), seul le taux d'occupation du système de fichiers auquel(x) appartien(nen)t le(s) fichier(s).
|-
|find nom_répertoire[s] [-options]
|Cherche à partir de(s) nom(s) de répertoire(s) donné(s) en argument, les fichiers correspondant à un critère précisé par les options
|-
|which nom_commande
|Affiche le nom absolu de la commande entré en argument en inspectant un ensemble donné de répertoires
|-
|cp nom_fic_srs nom_fic_dst
|Effectue la copie du fichier nommé nom_fic_src en un fichier nommé nom_fic_dst
|-
|cp nom_fic_1 ... nom_fic_n nom_rép
|Effectue la copie des fichiers nommés nom_fic_1, ..., nom_fic_n en autant de fichiers nommés nom_rép/nom_fic_1, ..., nom_rép/nom_fic_n
|-
|mv nom_fic_src nom_fic_dst
|Renomme le fichier nommé nom_fic_src en nom_fic_dst
|-
|mv nom_fic_1, ..., nom_fic_n nom_rép
|Déplace les fichiers nommés nom_fic_1, ..., nom_fic_n vers le répertoire nommé nom_rép
|-
|ln nom_fic_src nom_fic_dst
|Crée un lien entre le fichier nommé nom_fic_dst et le fichier existant nommé nom_fic_src. Le contenu du fichier n'est pas dupliqué.
|-
|ln -s nom_fic_src nom_fic_dst
|Crée un fichier nommé nom_fic_dst qui pointe vers le contenu de nom_fic_src.
|-
|mkdir nom_rép[s]
|Crée un (des) répertoire(s)
|-
|rmdir nom_rép[s]
|Supprime un (des) répertoire(s) vide(s)
|-
|rm nom_fic[s]
|Supprime un (des) fichier(s)
|-
|rm -r nom_rép[s]
|Supprime récursivement un (des) répertoire(s) éventuellement non vides
|-
|stat nom_fic[s]
|Affiche les informations associées au inoeud d'un (de plusieurs) fichier(s)
|-
|chmod mod nom_fic[s]
|Change les modalités d'accès au(x) fichier(s)
|-
|chown prop[.grp] nom_fic[s]
|Change le nom du propriétaire (et du groupe propriétaire) d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|-
|chgrp grp nom_fic[s]
|Change le nom du groupe propriétaire d'un (de plusieurs) fichier(s). Cette commande est parfois réservée à l'administrateur système.
|}
==Visualisation et traitement de fichiers==
{| border="1"
! Commande Unix !! Utilisation
|-
|cat nom_fic[s]
|Affiche la totalité du contenu du (des) fichier(s).
|-
|more nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|less nom_fic[s]
|Affiche le contenu du (des) fichier(s) page par page.
|-
|[http://fr.wikipedia.org/wiki/Vi vi] nom_fic[s]
|édite le contenu du (des) fichier(s).
|-
|string nom_fic[s]
|Affiche les chaines de caractères présente dans le(les) fichier(s) binaire(s).
|-
|od [-options] nom_fic[s]
|Affiche sous différentes formats le contenu du(des) fichier(s).
|-
|head [-val] nom_fic[s]
|Affiche les <<val>> premières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix premières lignes seront affichées.
|-
|tail [-val] nom_fic[s]
|Affiche les <<val>> dernières lignes du(des) fichier(s). Si aucune valeur n'est indiquée, les dix dernières lignes seront affichées.
|-
|tail [+val] nom_fic[s]
|Affiche les dernières lignes du(des) fichier(s) de la ligne numéro <<val>> jusqu'à la dernière.
|-
|split -l val nom_fic
|Sépare le fichier nommé nom_fic en autant de fichiers de <<val>> lignes nécessaire.
|-
|csplit '/motif/' nom_fic
|Sépare le fichier nommé nom_fic en fonction d'un motif donné.
|-
|cut -fliste -dc nom_fic[s]
|Coupe les champs dont la <<liste>> est donnée, le délimiteur de champs étant << c >> à partir du(des) fichier(s).
|-
|paste nom_fics
|Regroupe plusieurs fichiers en un seul.
|-
|join nom_fics
|Fusionne les contenus de plusieurs fichiers sur la base d'un champ de jointure.
|-
|sort [-n] nom_fic[s]
|Trie les lignes du(des) fichier(s). L'option -n indique que les données à trier sont numériques.
|-
|cmp nom_fic_1 nom_fic_2
|Compare les fichiers nommées nom_fic_1 et nom_fic_2 et indique l'emplacement de la première différence.
|-
|diff nom_fic_1 nom_fic_2
|Affiche toutes les différences entre les fichiers nommées nom_fic_1 et nom_fic_2.
|-
|wc [-lwc] nom_fic[s]
|Affiche le contenu du(des) fichier(s) en nombre de lignes(l), de mots(w) et de lettre(c).
|-
|grep motif nom_fic[s]
|Affiche les lignes du(des) fichier(s) contenant le <<motif>>.
|}
==Archivage et compression==
{| border="1"
! Commande Unix !! Utilisation
|-
|tar cvf nom_fic.tar nom_rép
|Crée un fichier nommé nom_fic.tar contenant la structure arborescente et la totalité du contenu des fichiers présents dans le répertoire nommé nom_rép.
|-
|tar xvf nom_fic.tar
|Reconstruit la structure arborescente et la totalité des fichiers qui ont été précédement rassemblés dans ce fichier.
|-
|compress nom_fic[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.Z.
|-
|uncompress nom_fic[s].Z
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|-
|gzip nom[s]
|Compresse un (des) fichier(s) et génère un (des) fichier(s) nommé(s) nom_fic.gz.
|-
|gunzip nom_fic[s].gz
|Décompresse un (des) fichier(s) et régénère le(s) fichier(s) nom_fic.
|}
==Redirections et tube==
{| border="1"
! Commande Unix !! Utilisation
|-
|commande > nom_fic
|Redirection de la sortie standard de la << commande >> en écrasant le contenu du fichier nommé nom_fic.
|-
|commande >> nom_fic
|Redirection de la sortie standard de la << commande >> en ajoutant à la fin du contenu du fichier nommé nom_fic.
|-
|commande >& nom_fic
|Redirection de la sortie standard des erreurs de la << commande >> vers le fichier fichier nommé nom_fic.
|-
|commande < nom_fic
|Redirection de l'entrée standard à partir du fichier nommé nom_fic vers la << commande >>.
|-
|<nowiki>commande_1 | commande_2 </nowiki>
|Redirection de la sortie standard de la << commande_1 >> vers l'entrée standard de la << commande_2 >>.
|-
|}
==commandes relatifs à l'environnement multi-utilisateurs==
{| border="1"
! Commande Unix !! Utilisation
|-
|id
|Donne des informations sur l'identité de l'utilisateur courant.
|-
|-
|telnet nom_hote
|Construit une connexion de session de travail vers la machine nommée nom_hote.
|-
|ssh nom_hote
|Construit une connexion de session de travail sécurisé vers la machine nommée nom_hote.
|-
|ftp nom_hote
|Construit une connexion de transfert de fichiers vers la machine nommée nom_hote.
|-
|finger nom_utilisateur(s)
|Affiche les informations relative au(x) nom_utilisateur(s).
|-
|chsh
|Modifie le shell initial.
|-
|w
|Affiche les informations sur la charge du système et les sessions de travail en cours.
|-
|ps [aux]
|Affiche les informations relatives aux processus.
|-
|top
|Affiche les informations relatives aux processus dans un format dynamique et trié.
|-
|kill [-signal] pid
|Envoi un <<signal>> au processus dont l'identifiant <<pid>> est donnée. Les différents signaux sont obtenus par la commande << man 7 signal >> sur la majoritée des systèmes linux.
|-
|nice commande [args]
|Positionne la priorité associée à la <<commande>>.
|-
|crontab
|Met en place un processus périodique.
|-
|at heure commande
|Retarde l'exécution d'une commande.
|}
=Script bash=
[http://fr.wikibooks.org/wiki/Programmation_Bash_Notions_essentielles_du_shell_bash un wiki pour apprendre le Bash.]
=sources=
Initiation à la bioinformatique O'Reilly
9b2a2a58ef47b2f13a7947436481dc460f79c104
R
0
1320
2537
2483
2008-09-18T08:49:40Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.7.2 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
8bf705cd65a9e8a10bd2541b261a24bdb9e7570b
2538
2537
2008-09-18T08:52:36Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.7.2 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*text by Maindonald (2000) http://www.staff.ncl.ac.uk/j.q.shi/teaching/mas362/r-note.pdf
*liks to pdfs, … http://www.biostat.jhsph.edu/~kbroman/Rintro/
136e607af5228a5ff5336fca40375771c753882c
2542
2538
2008-10-06T14:44:18Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.7.2 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Sept 08).<br>
L’installation est accompagnée d’une collection de >130 modules/packages "BioConductor" et "CRAN".
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.7.2 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
211efaabd96a9e5e2c6eeaff83c5f4bad42824bb
2563
2542
2008-11-17T17:22:51Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.8.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR Nov 08).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur des serveurs (Fedora comme) [[Star|star5]] taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.2.1 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
Et en version 2.7.2 en tapant /usr/local/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
2b3b1aed291663a37af53be95c49f4a1afc4c565
Tcl/Tk
0
1323
2539
2408
2008-09-18T14:59:09Z
Ripp
1
wikitext
text/x-wiki
[[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
* (pas encore eu le pb sur 8.5) Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...)
* Pour Pgtcl il faut toujours mettre les liens
*** ln -s /usr/local/ActiveTcl/lib/tcl8.5 /usr/local/lib/tcl8.5
*** ln -s /usr/local/lib/tcl8.5 tcl
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
b330130e5e88a7de055f9b2c1c3a7511a677975c
2540
2539
2008-09-18T15:35:30Z
Gagniere
3
wikitext
text/x-wiki
[[EuroTcl]] European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
* (pas encore eu le pb sur 8.5) Pour le package http (pour qu'il fonctionne avec le [[Café des sciences]] erreur "after cancel") il fallait modifier
** /usr/local/ActiveTcl/lib/tcl8.4/http/http.tcl y mettre if {[info exists state(after)]} et sock
** /usr/local/ActiveTcl/lib/tcl8.4/http/pkgIndex.tcl (je ne comprends plus pourquoi ...)
* Pour Pgtcl il faut toujours mettre les liens
** ln -s /usr/local/ActiveTcl/lib/tcl8.5 /usr/local/lib/tcl8.5
** ln -s /usr/local/lib/tcl8.5 /usr/local/lib/tcl
** (Ubuntu 8.04) ln -s /usr/lib/libpq.so.5 /usr/lib/libpq.so.4
* Starkit
Un starkit (toto.kit) est une extension Tcl/Tk universelle. Elle embarque un file-system virtuel dont les différentes directories correspondent aux différentes plate-formes disponibles. Dans ces répertoires spécifiques sont installées les librairies compilées pour cette plate-forme.
Un starkit s'utilise de la façon suivante :
$ tclsh
% source MyPkg.kit
% package require MyPkg
Exemple avec le starkit LRIPhoto (www.lr-i.com/LRIPhoto/ ou /home/moumou/ordali/lib/LRIPhoto.kit)
decompresser le starkit
star123_> tclkit sdx.kit unwrap LRIPHoto.kit
Cela recréer le file-system. On a une arborescence LRIPhoto.vfs/ avec une directory lib/ puis LRIPhoto/ (oui oui encore) et sur un meme niveau /Linux-x86 /Linux-x86_64 /Windows , etc.
Bidouiller ce que vous voulez.
Recréer le starkit
star123_> tclkit sdx.kit LRIPhoto.kit
et hop !
* CriTcl
CriTcl permet de compimer à la volée des programmes C en les transformant en commandes Tcl. Plus de détails en lisant la doc.
On peut également créer une librairie dynamique.
Pour LRIPhoto,
tclkit critcl.kit -lib LRIPhoto
On obtient un .so que l'on met ou il faut dans le LRIPhoto.vfs, et on refait le kit.
ec6ce2d118c773894fccb398cbca05898896a34d
BIRDQL
0
1395
2541
2530
2008-09-19T09:09:27Z
Dkieffer
2
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query
ID * DB GENBANK, REFSEQ
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank and RefSeq, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
aeab701e54341a3bd095d9af65fe0b71facd5b5a
2547
2541
2008-10-27T10:28:00Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
a83239ae49d7e16d6e68eba5e610b0867dd42044
2548
2547
2008-10-27T12:48:25Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT>
OF <OFFSET, Defaut OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
b371ee30eee028d2410af39bad1835a450316b56
2549
2548
2008-10-27T12:50:03Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH DE contains "ERYTHRINA CORALLODENDRON LECTIN IN COMPLEX"
WH OS contains "ERYTHRINA CORALLODENDRON"
WH RESO contains 1.90
LM 10
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
af58998c479f319665a804acb3b64eaee65d9a43
2550
2549
2008-10-27T12:55:01Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
c6c5cc9c06b616adb7581df8a3e74579b0fc6d9f
2566
2550
2008-12-17T13:41:38Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH DE contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
4b4206a8b0c6d7ed4125498f72163677a54b1133
2567
2566
2008-12-17T13:43:35Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl"
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
25c56dacd754415c1806aed7ea1ac19c74cd47cb
2568
2567
2008-12-17T13:46:18Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
WH OX contains 382
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
2e622f5539c68c4e8393013cdd39b80c0dd65129
2569
2568
2008-12-22T11:19:31Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
dc624791f4c5431ab5d1877546f8f8e49325663d
2570
2569
2008-12-22T11:20:30Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB MYGEO
WH SQLNATIVE select e.sample_id,e.tag,e.count from MYGEO.entry_sage as e, MYGEO.sample as h where (h.ac=e.sample_id and tag='GTGAAACCCC') and h.platform_id='GPL4' and count between 1 and 3
LM 1000
FM CSV
Results
GSM135388|GTGAAACCCC|1|GPL4
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
727db8c6b1c39496b3b881005d0a62039af87133
Cluspack
0
1353
2543
2251
2008-10-22T16:56:57Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)
[-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)
[-fd=number] (dt stands for filtering_distance)
[-nbsim=nbsimulations]
[-otfa=outputFile for alignment]
[-oclu=outputFile for clustering]
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
6a04ae4ba226a57413384b7860ac812893206cf2
2544
2543
2008-10-22T16:57:25Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
069aa8596ba30b6696ff6c7b5b1490a158d00435
2545
2544
2008-10-22T16:57:39Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kMeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
bd815cbee5058f3f570187646ab35a69dd5fa33f
2546
2545
2008-10-23T10:30:49Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kmeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization][-standardized_data][-wc] (dt1 stands for density1 and wc for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
1961a05ca3ad2a07014e438200f466b958e5e256
2556
2546
2008-10-28T17:33:35Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kmeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization] (dt1 stands for density1)
[-standardized_data][-wc] (wc stands for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
48a5029b6cc301a307c0971e370d1e710baedafa
2557
2556
2008-10-28T17:39:27Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
autres choix des parametres : <br>
-cm=kmeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization] (dt1 stands for density1)
[-standardized_data][-wc] (wc stands for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
Suggestion:<br>
run cluspack with nohup<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
c14ecb99700d60c7d4c560a17cea8a5dd8547f83
2558
2557
2008-10-28T17:41:17Z
Wraff
5
wikitext
text/x-wiki
'''Attention''' : Cluspack tourne sur Star3-8 et mais ne tourne plus sur Beaufort !!
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br>
or:<br>
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br>
autres choix des parametres : <br>
-cm=kmeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization] (dt1 stands for density1)
[-standardized_data][-wc] (wc stands for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
Suggestion:<br>
run cluspack with nohup<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
88a447b165126997c4acf08798c5904fe8f0b5fa
BIRD Data Access Protocol
0
1396
2551
2522
2008-10-27T15:29:15Z
Nguyen
15
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP Connection===
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FLAT
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
0b9fcef03ff60063ae19956b9891e15d253d31d5
2552
2551
2008-10-27T15:29:34Z
Nguyen
15
/* =PhP Connection */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP Connection===
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FLAT
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
4b20ee14434ad909c685665b6d3c29c558aacac7
2553
2552
2008-10-27T15:33:49Z
Nguyen
15
/* =PhP Connection */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP Connection====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
cdff1f9fa2cec804f7a571c63a33dfe70396772e
2554
2553
2008-10-27T15:35:28Z
Nguyen
15
/* PhP Connection */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
Node ENS-Lyon: [http://decrypthon-1.ens-lyon.fr/birdweb]
Node IGBMC: [http://decrypthon.u-strasbg.fr:8080/birdweb/]
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP Connection====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
4f906db36a3985ff1734b5cccd15cdeb3b8fab92
2555
2554
2008-10-27T16:09:19Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP Connection====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
1ad0a57e3981325a98ee7cbff9e042d693879056
2559
2555
2008-10-29T07:27:46Z
Nguyen
15
/* PhP Connection */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
int statusCode1 = client.executeMethod(postMethod);
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
f1636811949b09707df077f54a292bf836f179f7
2560
2559
2008-10-29T07:28:51Z
Nguyen
15
/* Java */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
int statusCode1 = client.executeMethod(postMethod);
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
2e6310a96a2a692278eeceee61f46a25a12476cc
2561
2560
2008-10-29T07:32:33Z
Nguyen
15
/* Java */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BIRDQL CLient====
java org.igbmc.bird.datadiscovery.BirdQLClient birdql nameServer outFile
@birdql : file name contains your bird-ql query
@nameServer: name of BIRD Server (d1.crihan.fr or bird.u-strasbg.fr)
@outFile : file name, the result will be print to this file
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
a8d78d4b9f7698584de9fdd7f4c0270f102ed91f
2562
2561
2008-10-29T07:33:10Z
Nguyen
15
/* BIRD Data Access Protocol */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdQlConsol/BirdQlConsol.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdQlConsol.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
3ce3eaa398179d0b6414a7fd30f20ac6b5d79f2c
2575
2562
2009-03-10T11:50:55Z
Dkieffer
2
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Data Center===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
e1888ea3d3af08adaf0505e6e64f834a965ebeb1
T-test
0
1413
2564
2008-11-17T18:00:44Z
Wraff
5
New page: The t-test is probably the best know statistical test.<br> Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages o...
wikitext
text/x-wiki
The t-test is probably the best know statistical test.<br>
Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages of two (independent) samples are different.
The individual values in each sample should follow the '''normal distribution''' and the samples should be '''independet'''.
for testing Normality in R you may use the [Shapiro-test]
Before launching the test it is essential to define the '''hypothesis to be tested''' and the Ho (hypothesis of the inverse). Averages may be tested "two-sided" for (not-)equality (the hypothesis doesnt specify if average_1 is larger or smaller than average_2), or single-sided (where larger or samller has to be chosen).
The initial t-test assumes equal variance in both samples, if you think this is not the case the Welch-correction allows to use for each sample individual estimations of the standard deviation. in fact, the default implementation in R does already the Welch-correction.
Run the test in R as :
samp1 <- c(2:10,4:6)
samp2 <- c(6:11,9,10,14)
# test the hypothesis that the averages of samp1 and samp2 are equal (ie Ho aver(samp1) equal aver(samp2) )
t.test(samp1, samp2)
will return the t-value, the degrees of freedom, the p-value, the 95% confidence interval and the sample (estimated) means.
If you simply want the p-values type :
t.test(samp1, samp2)$p.value
In this particular example the probability (p-value) for the hypothesis of both averages being equal is quite samll, therefore one may consider the averages of both samples as significaltly different (ie below the calssical a=5% threshold) since :
t.test(samp1, samp2)$p.value < 0.05
<br>
''' Special cases and Assumptions''' :
As mentioned before, t-test assumes INDEPENDENCE of the variables to be tested !
Note, that in many settings in Bioinformatics such independence is not entirely granted (eg genes may potentially be co-regulated...).
When running many t-test a special correction for the multiple testing should be applied.
For example this is the case with many testing situation many genes present on a single microarray.
8585ce09d11fb1b3af94173706f97887cdcbb9b4
2565
2564
2008-11-17T18:01:59Z
Wraff
5
wikitext
text/x-wiki
== t-test in R ==
The t-test is probably the best know statistical test.<br>
Baiscally the '''t-test''' can be used to compare a) if the avarage of a given sample is different from 0 or b) if the averages of two (independent) samples are different.
The individual values in each sample should follow the '''normal distribution''' and the samples should be '''independet'''.
for testing Normality in R you may use the [[Shapiro-test]]
Before launching the test it is essential to define the '''hypothesis to be tested''' and the Ho (hypothesis of the inverse). Averages may be tested "two-sided" for (not-)equality (the hypothesis doesnt specify if average_1 is larger or smaller than average_2), or single-sided (where larger or samller has to be chosen).
The initial t-test assumes equal variance in both samples, if you think this is not the case the Welch-correction allows to use for each sample individual estimations of the standard deviation. in fact, the default implementation in R does already the Welch-correction.
Run the test in R as :
samp1 <- c(2:10,4:6)
samp2 <- c(6:11,9,10,14)
# test the hypothesis that the averages of samp1 and samp2 are equal (ie Ho aver(samp1) equal aver(samp2) )
t.test(samp1, samp2)
will return the t-value, the degrees of freedom, the p-value, the 95% confidence interval and the sample (estimated) means.
If you simply want the p-values type :
t.test(samp1, samp2)$p.value
In this particular example the probability (p-value) for the hypothesis of both averages being equal is quite samll, therefore one may consider the averages of both samples as significaltly different (ie below the calssical a=5% threshold) since :
t.test(samp1, samp2)$p.value < 0.05
<br>
''' Special cases and Assumptions''' :
As mentioned before, t-test assumes INDEPENDENCE of the variables to be tested !
Note, that in many settings in Bioinformatics such independence is not entirely granted (eg genes may potentially be co-regulated...).
When running many t-test a special correction for the multiple testing should be applied.
For example this is the case with many testing situation many genes present on a single microarray.
e09e0bd27d7ed0430a3b367aec03a5a03c27cae0
ILPLab
0
1414
2577
2009-03-13T15:54:39Z
Nguyen
15
New page: ILPLab product
wikitext
text/x-wiki
ILPLab product
97ec7bae1c1977e608115d7aac271a6792b83dd5
Fed
0
1286
2578
2036
2009-03-22T17:37:14Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
72eb7225e4cb4e9ae0cb247b563e83e528fa7c36
Fed Website Architecture
0
1415
2579
2009-03-22T18:00:12Z
Ripp
1
New page: [[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s). We describe here the architecture of ONE website. Let's call it "'''...
wikitext
text/x-wiki
[[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s).
We describe here the architecture of ONE website. Let's call it "'''arthur'''".
==Main concepts==
# a relational SQL database (1 for each Fed instance : let's call it "'''arthur'''")
# the fed shared php programs are in following directories
** /arthur/Project
** /arthur/phpRR
** /arthur/phpLP
a7af7eb09776f561efc3a68cb38843fb1fe7ada8
2580
2579
2009-03-22T18:13:23Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s).
We describe here the architecture of ONE website. Let's call it "'''arthur'''".
==Main concepts==
=== a relational SQL database===
one database for our Fed instance (by default let's call it "'''arthur'''")
===the fed shared php programs are in following directories===
** /arthur/Project
** /arthur/phpRR
** /arthur/phpLP
===a hierarchical 3 levels tree organisation===
* sections
* categories
* buds
stored in /arthur/own/desk/MenuBarBora.php.
A page corresponds to the display of a section/categorie/bud.
* All buds of the displayed category are clickable
* All categories of a section are clickable
* All sections are always available.
046ce17d564e942d3c8725ff1832e18178d7e14d
2581
2580
2009-03-22T18:30:50Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s).
We describe here the architecture of ONE website. Let's call it "'''arthur'''".
==Main concepts==
=== a relational SQL database===
one database for our Fed instance (by default let's call it "'''arthur'''")
===the fed shared php programs are in following directories===
** /arthur/Project
** /arthur/phpRR
** /arthur/phpLP
===a hierarchical 3 levels tree organisation===
* sections
* categories
* buds
stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php.
A page corresponds to the display of a section/categorie/bud.
* All buds of the displayed category are clickable
* All categories of the displayed section are clickable
* All sections are allways available.
===a page is displayed by a centralized .php program===
FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php
ed235ba62cc26a014f8f9a51db395be6b76b1410
Gscope
0
1287
2582
2473
2009-04-16T09:47:21Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
==Usage==
Gscope works on a [[Gscope Project]]
A gscope Project can be a complete genome, a set of proteins, a set of genes, etc.
To run Gscope you need to define on which the corresponding project.
setgscoperr ''MyProject''
gscope
If the project already exists the [[Gscope Environment Variables]] are setted.
If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
eef839499a11fbf75dc442dc27126e3f5a1b941e
Gscope
0
1287
2583
2582
2009-04-16T09:48:08Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
Gscope is an integrated platform allowing the analysis of all kind of genomic data.
Gscope is written in Tcl/Tk and runs on all systems.
Gscope is specially designed to perform high throughput analysis.
Gscope is mainly composed of
* all tools necessary to create the basic data
* analysis tools
* visualisation interface
it allows also
* the creation and feeding of SQL relational databases
* the quering and display of the available information through a web based interface
==Usage==
Gscope works on a [[Gscope Project]]
A gscope Project can be a complete genome, a set of proteins, a set of genes, etc.
To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
If the project already exists the [[Gscope Environment Variables]] are setted.
If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
3b5464bc23cbeffb9cccfa2bcdc6af28d616f837
2584
2583
2009-04-16T09:50:00Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface
==Usage==
* Gscope works on a [[Gscope Project]]
* A gscope Project can be a complete genome, a set of proteins, a set of genes, etc.
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are setted.
* If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
d04808d8165477edd3294b686507cc36f13100cd
2585
2584
2009-04-16T09:53:29Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are setted.
* If it concerns a new project the directories are created and th evariables are setted. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
c2a5cb5902ba0598219557001f3a28fed048f834
2586
2585
2009-04-16T09:55:54Z
Ripp
1
wikitext
text/x-wiki
==What is Gscope ?==
New : Gscope knows a lot about [[GeneNames]]
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
bd97d14c4f8cd09f99d28d3df042e3b819dbbf0c
2601
2586
2009-04-17T12:25:42Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
a47b88733ac278ad2ba9cb2352779796646624db
2602
2601
2009-04-17T12:29:06Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
9692dcfd9d10bdedd11049f629f049da625703f6
2603
2602
2009-04-17T12:32:02Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
65a1b01d60009957544a6edc17f9caea9c02346b
2617
2603
2009-04-20T14:02:51Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access oue postgresql and mysql databases
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
0e1e54f137a92c2d47eb299b3751e07f093bb48b
2623
2617
2009-04-24T10:22:19Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
f2a5bcfdcfdc2c89b02c97fa38ebf352e90848c0
Gscope Environment Variables
0
1416
2587
2009-04-16T10:16:49Z
Ripp
1
New page: [[Gscope]] needs to now the [[Gscope Project]] it has to manage. For that folllowing environment variables are set with the command (see the file [http://www-bio3d-igbmc.u-strasbg.fr/Pou...
wikitext
text/x-wiki
[[Gscope]] needs to now the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope])
setgscoperr ''MyProject''
* setenv REPERTOIREDUGENOME /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the PATH is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope]
3f3dd632c3791abe036f91d50b17f6c914f325ee
2588
2587
2009-04-16T10:17:12Z
Ripp
1
wikitext
text/x-wiki
[[Gscope]] needs to know the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope])
setgscoperr ''MyProject''
* setenv REPERTOIREDUGENOME /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the PATH is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/PourGscope/setgscoperr.com setgscope]
d4da00514e593a0ecfb3d83725eef9eda302c1db
2589
2588
2009-04-16T10:18:48Z
Ripp
1
wikitext
text/x-wiki
[[Gscope]] needs to know the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscoperr.com setgscope])
setgscoperr ''MyProject''
* setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the '''PATH''' is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscoperr.com setgscope]
5b14a349ac5ef116fecfa13a725d9e5bc8d02d0d
2590
2589
2009-04-16T10:19:51Z
Ripp
1
wikitext
text/x-wiki
[[Gscope]] needs to know the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope])
setgscoperr ''MyProject''
* setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the '''PATH''' is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
REPERTOIREDUGENOME and home/ripp/gscope/bin are sufficient to run Gscope
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]
2f89184e9b440a3e533c9fd26f512d7f7367d440
2591
2590
2009-04-16T10:21:55Z
Ripp
1
wikitext
text/x-wiki
[[Gscope]] needs to know the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope])
setgscoperr ''MyProject''
* setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the '''PATH''' is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
REPERTOIREDUGENOME and home/ripp/gscope/bin are necessary and sufficient to run Gscope in visualisation mode.
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]
0ed0a50cbbd56271cef908669c0c01513b45f299
2592
2591
2009-04-16T10:22:40Z
Ripp
1
wikitext
text/x-wiki
[[Gscope]] needs to know the [[Gscope Project]] it has to manage.
For that folllowing environment variables are set with the command
(see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope])
setgscoperr ''MyProject''
* setenv '''REPERTOIREDUGENOME''' /genomics/MyProject (the directory which contains the Gscope Project)
* setenv NCBI /bips/share/ncbi
* setenv BLASTDB /catalog/blast
* the '''PATH''' is modified and contains at least
** /home/ripp/gscope/bin
** /home/ripp/mulali
** /bips/EMBOSS/bin
** /bips/bin
Following command are also launched
setsrs
setmulali
setncbi
'''REPERTOIREDUGENOME''' and '''/home/ripp/gscope/bin''' are necessary and sufficient to run Gscope in visualisation mode.
Please see the file [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/PourGscope/setgscope.com setgscope]
a569809932144943c912047d8e9a15f9ab5275ca
Gscope Project
0
1417
2593
2009-04-16T10:32:16Z
Ripp
1
New page: A [[Gscope]] Project is a directory tree containing at least following files (suppose REPRETOIREDUGENOME is /genomics/MyProject) * /genomics/MyProject * /genomics/MyProject/beton * /geno...
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing at least following files (suppose REPRETOIREDUGENOME is /genomics/MyProject)
* /genomics/MyProject
* /genomics/MyProject/beton
* /genomics/MyProject/beton/miniconfig
* /genomics/MyProject/fiches
* /genomics/MyProject/fiches/bornesdespabs
* /genomics/MyProject/fiches/lesgenomescomplets
* /genomics/MyProject/prottfa
* /genomics/MyProject/protembl
and/or
* /genomics/MyProject/nuctfa
* /genomics/MyProject/pnucembl
* /genomics/MyProject/blastp
* /genomics/MyProject/tblastn
* /genomics/MyProject/msf
etc.
All these directories and files are automatically created by Gscope.
64f120345cf8871b03984e1ee69b2af31b7bf921
2594
2593
2009-04-16T10:36:22Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'')
* /genomics/''MyProject''
* /genomics/''MyProject''/beton
* /genomics/''MyProject''/beton/miniconfig
* /genomics/''MyProject''/fiches
* /genomics/''MyProject''/fiches/bornesdespabs
* /genomics/''MyProject''/fiches/lesgenomescomplets
* /genomics/''MyProject''/prottfa
* /genomics/''MyProject''/protembl
and/or
* /genomics/''MyProject''/nuctfa
* /genomics/''MyProject''/pnucembl
and why not
* /genomics/''MyProject''/blastp
* /genomics/''MyProject''/tblastn
* /genomics/''MyProject''/blastpMus_musculus
* /genomics/''MyProject''/blastpHomo_sapiens
* /genomics/''MyProject''/msf
* /genomics/''MyProject''/msfMus_musculus
etc.
All these directories and files are automatically created by Gscope.
73cdf36e02f2a563c0b8ba7e0bc898536cfb393e
2595
2594
2009-04-16T10:38:17Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'')
* /genomics/''MyProject''
* ./beton
* ./beton/miniconfig
* ./fiches
* ./fiches/bornesdespabs
* ./fiches/lesgenomescomplets
* ./prottfa
* ./protembl
and/or
* ./nuctfa
* ./pnucembl
and why not
* ./blastp
* ./tblastn
* ./blastpMus_musculus
* ./blastpHomo_sapiens
* ./msf
* ./msfMus_musculus
etc.
All these directories and files are automatically created by Gscope.
32574e5c2bd1fcbb3fe00c2568899a304118eed5
2596
2595
2009-04-16T10:39:01Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'')
/genomics/''MyProject''
./beton
./beton/miniconfig
./fiches
./fiches/bornesdespabs
./fiches/lesgenomescomplets
./prottfa
./protembl
and/or
./nuctfa
./pnucembl
and why not
./blastp
./tblastn
./blastpMus_musculus
./blastpHomo_sapiens
./msf
./msfMus_musculus
etc.
All these directories and files are automatically created by Gscope.
eda4e991aec49cd6904886208f610e94efaabcd0
2597
2596
2009-04-16T10:40:01Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing at least following files (supposing REPERTOIREDUGENOME is /genomics/''MyProject'')
/genomics/''MyProject'' (which stands for ./ in following lines)
./beton
./beton/miniconfig
./fiches
./fiches/bornesdespabs
./fiches/lesgenomescomplets
./prottfa
./protembl
and/or
./nuctfa
./pnucembl
and why not
./blastp
./tblastn
./blastpMus_musculus
./blastpHomo_sapiens
./msf
./msfMus_musculus
etc.
All these directories and files are automatically created by Gscope.
2ebdc1b2f566b5181f7503a35847dfd4b5558c9c
2598
2597
2009-04-16T10:48:11Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing flat files
suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX
/genomics/''MyProject''/ (which stands for ./ in following lines)
./beton/
./beton/miniconfig
./fiches/
./fiches/bornesdespabs (contains the positions for BOX001 to BOX189)
./fiches/lesgenomescomplets
./fiches/..... (and other flat files)
./prottfa/
./prottfa/BOX001
./prottfa/BOX002
./prottfa/......
./prottfa/BOX189
./protembl/ (with all BOX)
and/or
./nuctfa/ (with all BOX)
./pnucembl (with all BOX)
and why not
./blastp/ (with all BOX)
./tblastn/ (with all BOX)
./blastpMus_musculus/ (with all BOX)
./blastpHomo_sapiens/ (with all BOX)
./msf/ (with all BOX)
./msfMus_musculus/ (with all BOX)
etc.
All these directories and files are automatically created by Gscope.
5b7b9686d3e744bbfecd5f2a21bc9da5d8814406
2599
2598
2009-04-16T10:49:52Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing flat files
suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX
/genomics/''MyProject''/ (which stands for ./ in following lines)
./beton/
./beton/miniconfig
./fiches/
./fiches/bornesdespabs (contains the positions for BOX001 to BOX189)
./fiches/lesgenomescomplets
./fiches/..... (and other flat files)
following directories contain all BOX001 to BOX189 as shown for prottfa
./prottfa/
./prottfa/BOX001
./prottfa/BOX002
./prottfa/......
./prottfa/BOX189
./protembl/
and/or
./nuctfa/
./pnucembl
and why not
./blastp/
./tblastn/
./blastpMus_musculus/
./blastpHomo_sapiens/
./msf/
./msfMus_musculus/
etc.
All these directories and files are automatically created by Gscope.
55fef6e8cca0509be4cb3bc6ffd6114ad0d8c5e7
2600
2599
2009-04-16T10:52:44Z
Ripp
1
wikitext
text/x-wiki
A [[Gscope]] Project is a directory tree containing flat files
suppose REPERTOIREDUGENOME is /genomics/''MyProject'' and the suffixe for each Gscope sequence name is BOX
/genomics/''MyProject''/ (which stands for ./ in following lines)
./beton/
./beton/miniconfig
./fiches/
./fiches/bornesdespabs (contains the positions for BOX001 to BOX189)
./fiches/lesgenomescomplets
./fiches/..... (and other flat files)
following directories contain all BOX001 to BOX189 as shown for prottfa
./prottfa/
./prottfa/BOX001
./prottfa/BOX002
./prottfa/......
./prottfa/BOX189
./protembl/
./protembl/BOX*
and/or
./nuctfa/
./nuctfa/BOX*
./nucembl/
./nucembl/BOX*
and why not
./blastp/
./blastp/BOX*
./tblastn/
./tblastn/BOX*
./blastpMus_musculus/
./blastpMus_musculus/BOX*
./blastpHomo_sapiens/
./blastpHomo_sapiens/BOX*
./msf/
./msf/BOX*
./msfMus_musculus/
./msfMus_musculus/BOX*
etc.
All these directories and files are automatically created by Gscope.
dc613dc809e5d411b3511f09f124651173fe6471
Gscope Procedures
0
1418
2604
2009-04-17T13:04:04Z
Ripp
1
New page: You'll find here description about Gscope Procedures ===Iterator=== See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/gscope_html_server.tcsh?Zero&info&body&Iterator proc Iterator]
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
===Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/gscope_html_server.tcsh?Zero&info&body&Iterator proc Iterator]
663a2cfa4c3b32515ab12e92501cb9591c6df9d4
2605
2604
2009-04-17T13:37:24Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
===Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator]
a60eddd65262b4ca1f5ac5849b512c6185fc9808
2606
2605
2009-04-17T13:41:39Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
===Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
La derniere va le plus vite !!!!!!!!!!!!!!!!!!!!
Attention les listes sont numerotes de 0 a 2 a l'exterieur (pour le user)
mais elles sont indexes de 2 a 0 dans la proc (en interne)
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
d829d7b7490cc5873d3ef6e713f14c25577af357
2607
2606
2009-04-17T13:47:32Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
===Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
ab088f9185d2008524c3e55d44eae539d5991757
2608
2607
2009-04-17T13:48:25Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
e33158a6ac13c36ce5093f683f2b6aa0d8d37195
2609
2608
2009-04-17T13:55:49Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&info&body&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
f4350692c033d6b5870add2dcdcea7c90c87ff05
2622
2609
2009-04-20T16:11:54Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
0dad9455dbd6e2c2b7d97b72ddc1abc6cd5d701a
2624
2622
2009-04-24T10:42:20Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc Go===
* proc GoGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGo "protein binding" PFAM]
set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGo "protein binding" GENE]
set ListOfGene [GoGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc GoFromGene Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc GoGo]
<source lang="tcl">
set ListOfGO [GoFromGene PAX6 GO]
set ListOfGOWithAcc [GoFromGene PAX6 GOacc]
set ListOfGOWithName [GoFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id]
</source>
52c0cfdcad5ab2e371ebba20c92e98efc1a4be95
2625
2624
2009-04-24T10:47:11Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc Go===
Several procs are concerned ... see the source file gscope_go.tcl
* proc GoGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGo "protein binding" PFAM]
set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGo "protein binding" GENE]
set ListOfGene [GoGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc GoFromGene Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoGo]
<source lang="tcl">
set ListOfGO [GoFromGene PAX6 GO]
set ListOfGOWithAcc [GoFromGene PAX6 GOacc]
set ListOfGOWithName [GoFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc GoFromPfam Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoGo]
<source lang="tcl">
set ListOfGO [GoFromPfam PF09088 GO]
set ListOfGOWithAcc [GoFromPfam PF09088 GOacc]
set ListOfGOWithName [GoFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id]
</source>
25af4a37b72960f28ede2b899a90807eed467d14
2626
2625
2009-04-24T10:48:04Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc Go...===
Several procs are concerned ... see the source file gscope_go.tcl
* proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGo "protein binding" PFAM]
set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGo "protein binding" GENE]
set ListOfGene [GoGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoGo]
<source lang="tcl">
set ListOfGO [GoFromGene PAX6 GO]
set ListOfGOWithAcc [GoFromGene PAX6 GOacc]
set ListOfGOWithName [GoFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoGo]
<source lang="tcl">
set ListOfGO [GoFromPfam PF09088 GO]
set ListOfGOWithAcc [GoFromPfam PF09088 GOacc]
set ListOfGOWithName [GoFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id]
</source>
0f692fba6d608346a43f80992eda3f4cc7f3c72e
2627
2626
2009-04-24T10:48:56Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc Go...===
Several procs are concerned ... see the source file gscope_go.tcl
* proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGo "protein binding" PFAM]
set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGo "protein binding" GENE]
set ListOfGene [GoGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoFromPfam]
<source lang="tcl">
set ListOfGO [GoFromGene PAX6 GO]
set ListOfGOWithAcc [GoFromGene PAX6 GOacc]
set ListOfGOWithName [GoFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoFromPfam]
<source lang="tcl">
set ListOfGO [GoFromPfam PF09088 GO]
set ListOfGOWithAcc [GoFromPfam PF09088 GOacc]
set ListOfGOWithName [GoFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id]
</source>
9695fac901bbbdda23ca89e34734420148157cfd
2628
2627
2009-04-24T10:51:27Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc Go...===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGo "protein binding" PFAM]
set ListOfPfamWithId [GoGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGo "protein binding" GENE]
set ListOfGene [GoGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromGene proc GoFromPfam]
<source lang="tcl">
set ListOfGO [GoFromGene PAX6 GO]
set ListOfGOWithAcc [GoFromGene PAX6 GOacc]
set ListOfGOWithName [GoFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoFromPfam proc GoFromPfam]
<source lang="tcl">
set ListOfGO [GoFromPfam PF09088 GO]
set ListOfGOWithAcc [GoFromPfam PF09088 GOacc]
set ListOfGOWithName [GoFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoFromPfam PF09088 GOacc,a.source_db_id]
</source>
b66521cf810af2dabb68842f62c7970cb431c11c
2629
2628
2009-04-25T10:05:14Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGet...===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
b909f5d91540effbb15a8c6654a824aefe2d8eed
2630
2629
2009-04-25T10:06:20Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGetFromGo proc GoGetFromGene Proc GoGetFromPfam proc GoInfo===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
a113657e59005ad285c07943a555f56e664fe9e7
2631
2630
2009-04-25T10:06:59Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGetFromGo GoGetFromGene GoGetFromPfam GoInfo===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
* proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
* proc '''GoGetFromFromPfam''' Pfam Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
d148fa314b1995e4eba516cf427e6d211a9e959b
2632
2631
2009-04-25T10:14:14Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGetFromGo {Go GENEwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default)
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
* proc '''GoGetFromGene''' Gene Quoi JoinCar RecordsJoinCar
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
e53088b7434a98c15c10381a33ee3fe35a2206b8
Main Page
0
1279
2610
2464
2009-04-20T13:29:23Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [http://genoret.igbmc.fr/genoret/wiki Genoret]
* [[Fed]] Federating data
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
48065fe7199024d84aad32619b5e0f38c108d0d7
2611
2610
2009-04-20T13:34:32Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] wiki top secret du LBGI.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
764758e0cfe61e84be9b905bc648ab2dccdd2216
2615
2611
2009-04-20T13:54:51Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le [http://alnitak.u-strasbg.fr/lbgiki LBGIki] '''wiki top secret du LBGI'''.
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
e3253aaf90799d61570655e65ed1d8412c7c0a8b
2616
2615
2009-04-20T13:55:23Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] .
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
a61db7b63301d55102b118361b813052389019cc
Fed
0
1286
2612
2578
2009-04-20T13:49:02Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://xxxxxx.igbmc.fr/genoret/phpRR/CheckTsearch.php?database=ddddddddddddddd
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables.
update x set x=x
b59252db62c79348aeb634885792dec94e966514
2613
2612
2009-04-20T13:51:03Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://lbgi.igbmc.fr/''site''/phpRR/CheckTsearch.php?database=''database''
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
7bc61ecc41a1cfa5db8a4791318c835b498f4e2a
2614
2613
2009-04-20T13:52:16Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
059ffb997d4af05929c6d335d018c5711d726353
GscopeSql
0
1419
2618
2009-04-20T14:46:02Z
Ripp
1
New page: GscopeSql how to access postgresql and mysql databases. Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir [http://lbgi.igbmc.fr/gag/cgi-bin/G...
wikitext
text/x-wiki
GscopeSql how to access postgresql and mysql databases.
Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl]
et
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl])
<source lang="tcl">
CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret])
set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist")
CanalSqlDisconnect
</source>
Il detecte tout seul s'il s'agit de postgresql ou mysql
2b924ab2c745cd952309fb3422f4dc4e2fe94a1a
2619
2618
2009-04-20T14:47:28Z
Ripp
1
wikitext
text/x-wiki
GscopeSql how to access postgresql and mysql databases.
Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl]
et
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl])
<source lang="tcl">
CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...)
set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist")
CanalSqlDisconnect
</source>
Il detecte tout seul s'il s'agit de postgresql ou mysql
28d7d4928cfc5b00482585dd073d459eefa60036
2620
2619
2009-04-20T14:56:59Z
Ripp
1
wikitext
text/x-wiki
GscopeSql how to access postgresql and mysql databases.
Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl]
et
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl])
<source lang="tcl">
CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...)
set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist")
CanalSqlDisconnect
</source>
Il detecte tout seul s'il s'agit de postgresql ou mysql. Duc oup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes.
En général les SELECT se font très simplement par
<source lang="tcl">
foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... }
</source>
On peut aussi récupérer le 'handle' pour faire des choses plus savantes.
En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir le code source).
422fb3dcb774914072191a82472289c564609b4e
2621
2620
2009-04-20T15:00:44Z
Ripp
1
wikitext
text/x-wiki
GscopeSql how to access postgresql and mysql databases.
Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl]
et
[http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl])
<source lang="tcl">
CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...)
set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist")
CanalSqlDisconnect
</source>
Il detecte tout seul s'il s'agit de postgresql ou mysql. Du coup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes.
En général les SELECT se font très simplement par
<source lang="tcl">
foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... }
</source>
On peut aussi récupérer le 'handle' pour faire des choses plus savantes.
En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir [http://www.ucl.ac.uk/is/mysql/tcl/ MySql Tcl]).
7295f2a6a837bd13009c7b49728ba67b9ad38d48
Gscope Procedures
0
1418
2633
2632
2009-04-25T10:19:07Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
'''GoGetFromGo''' starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
'''GoGetFromGene''' returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
'''GoGetFromGene''' returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
6ceaa87c5f3f6c3bb94a61b4cac4a36f4c3eff9f
2634
2633
2009-04-25T10:20:51Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
===proc Iterator===
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
===proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
===proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
===proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}===
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
1faa02406aefaf0f888f4ff62bce43778d407453
2635
2634
2009-04-25T10:21:30Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
c0916e3cf6c24b1b8f15fb51ca89e83fccc0898d
2636
2635
2009-04-25T10:22:15Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGo proc GoGo]
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
fc181eb25dff9a9f58362c00cd22d8c6d4a50e5d
2637
2636
2009-04-28T10:10:55Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
d4ed7b8f9344ed7e5d7f16fdb4cfa1396e7042be
2638
2637
2009-04-28T13:29:38Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) /
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
f9eacaf7c3e34e6654670daff84bdfd060e6e0a3
2639
2638
2009-05-15T08:55:01Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) /
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
9ed4fd92c33bcfdf6f978f037b02f5847b7abc8e
2640
2639
2009-05-15T08:57:16Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
a36c9f72d730b3935c76e64b2f11c7ac56dd5c73
ProGS
0
1298
2641
1896
2009-05-29T09:41:39Z
Ripp
1
wikitext
text/x-wiki
ProGS est la base de données Gscope Clonage
Developpée initialment pour créer les oligos pour Arnaud c'est maintenant une vraie unsine à gaz ... qui marche presque toute seule !
En plus de gérer les oligos, commandes, ppcr, signaux, vecteurs d'expression ... elle fournit une étude Gscope de la séquence au [[MACSIMS]] de toutes les cibles de Génomique Structurale étudiées au Laboratoire de biologie et Génomique Structurales.
ProGS est accessible par web à travers [[GscopeHtmlServer]] [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS]
Il faudrait développer Gscope Clonage en base de données SQL ...
==Comment commander des oligos ?==
dcd2085a2bfc6806a99f7b467ddbbb09d336db0d
Main Page
0
1279
2642
2616
2009-05-29T12:17:36Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] .
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9b78f85627b85f886d5bba08fc40d133c58509d0
2670
2642
2009-12-13T16:44:19Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] .
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
bb4201f77c60b954849966585fbbeca99f7560f0
R
0
1320
2643
2563
2009-06-12T11:51:37Z
Dkieffer
2
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
8c3e049983f8f87e19b1cf97a1e774ed7b91949a
2656
2643
2009-07-03T16:30:56Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
8f67c7a1f59145e389fb04698ec19b74c58abdbd
2657
2656
2009-07-24T07:50:48Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R
Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
9a1ad6c96c4fd78ce6e17aeeb3d9e7c38c9b08ff
2658
2657
2009-07-24T07:52:21Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R
Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
d37d2ae612467032a46195fa6cfb14a7b4d50a57
2659
2658
2009-07-24T08:06:25Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
13bdf8aeb31a6247d3ad7db495211bd7533b3f4a
2660
2659
2009-07-24T08:07:04Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.9.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (DK juin 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
4045a99a47c0fa41b6dab57869e2d971a9eaa12a
2668
2660
2009-11-16T09:39:02Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Et la version developpeur de R-2.10.0 (installé peu des libraries) avec /linux/local/lib64/R-devel/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
637fa6733e4632ed22d58a3c87131f5ca57044a3
2669
2668
2009-11-16T09:39:17Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
af539ccaad59492301775c7fe76717a10cec5ae1
Fed
0
1286
2644
2614
2009-06-19T07:16:21Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise à oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
d2ef7b7e967379f011f1f1a15484582ccbdd6cfb
2645
2644
2009-06-19T07:20:52Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]]
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
f3c86599c99d693ce590133f140a0225641c18d9
2648
2645
2009-06-19T07:27:36Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
c2ab8c1bb42c90e2f7851f135d6475f2f26f65f9
2649
2648
2009-06-19T07:28:16Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===CheckTsearch : Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
fca7dce84fc13488c51a77f00f78347e42106d89
2650
2649
2009-06-19T07:28:59Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour l'ensemble d'un base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
2bb7ca2f0cafa3184220ea7628a8b1cfe36db00b
2651
2650
2009-06-19T07:29:31Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** within a Gallery of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
The Gallery is organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
acb1b15dce6e8a9a7fd36a9593142e82287c9d6e
2654
2651
2009-07-01T16:19:02Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** Datafiles can be uploaded in Galleries of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
* Gallery
** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
* Datafile
** a Datafile is a file which was uploaded by a member.
** a Datafile has an owner.
** It can be referenced in several galleries.
** it has a visibility group called Grog which allows to define access rights
* Grog
** a Grog is a group of groups, and people.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
f2a9461a8a6f684b4e5454f7c39950f348b01ffa
2655
2654
2009-07-01T16:19:52Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** Datafiles can be uploaded in Galleries of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
* [[Gallery]]
** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
* [[Datafile]]
** a Datafile is a file which was uploaded by a member.
** a Datafile has an owner.
** It can be referenced in several galleries.
** it has a visibility group called Grog which allows to define access rights
* [[Grog]]
** a Grog is a group of groups, and people.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
090ce9bf026e0ad62ae91a57aa3c8cf7ca8c1a9e
CheckTsearch
0
1420
2646
2009-06-19T07:24:47Z
Ripp
1
New page: Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql Ces index sont mis à jour à chaque insert, update, delete. On peut choisir les colonnes à traiter. Raymond a c...
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
20ea328c65af60432d8424aad99e5ae44e8e9aab
2647
2646
2009-06-19T07:26:19Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
Attention idxfti n'est pas mis à jour. Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
b0bb45c90963a67666f02fb9e08bdc875d260e5a
2652
2647
2009-06-19T07:37:04Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
c37fa34cf36fa37f3ce5cf4f9361d012d85c5e16
2653
2652
2009-06-19T07:39:32Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
08581044221770280c75de171160f5cb57be197b
2662
2653
2009-09-03T13:29:43Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fontion pltcl f_replace_chars
<source lang='tcl'>
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg;
</source>
pour la database. Il la met dans catalog functions
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
a14fdf26f38a7a0b5a5735dbaebc3454d3c51f7c
2663
2662
2009-09-03T13:33:29Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fontion pltcl f_replace_chars
<source lang='tcl'>
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg;
</source>
pour la database. Il la met je ne sais pas où ... je l'avais trouvée dans Pg_catalog functions de genoret
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
d37690744e318a1a8b096d0f4f08174554b2cb62
2664
2663
2009-09-03T13:52:04Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fontion pltcl f_replace_chars
<source lang='tcl'>
set search_path to pg_catalog;
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO berthomg;
</source>
pour la database. Il la met dans pg_catalog functions.
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
6597e66969087b377df9cb2e15c7edf37f797397
2665
2664
2009-09-03T13:53:08Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fontion pltcl f_replace_chars pg_catalog functions.
<source lang='tcl'>
set search_path to pg_catalog;
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
f0ee9fce3da144dee08007a96ceee640ab1d7d7d
2666
2665
2009-09-03T13:54:06Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions.
<source lang='tcl'>
set search_path to pg_catalog;
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
0a9e161f423ce5b8b3070d7bcf44c23f9b1c28d4
2667
2666
2009-09-17T12:26:17Z
Poidevin
11
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='sql'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
if {![info exists NEW($col)]} {continue}
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions.
<source lang='tcl'>
set search_path to pg_catalog;
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
1c60e7c4de23689f79b8eead602781f1b6b607f2
Bird Databases List
0
1404
2661
2512
2009-08-12T14:43:16Z
Poidevin
11
wikitext
text/x-wiki
These database below are available in [[BIRD]] System. We could explore these data by [[BIRD Data Access Protocol]]
=GENBANK DATABASES=
*GBEST : GENBANK EST
*GBWGS : GENBANK WGS
*GBRL : GENNANK RELEASE
*GBNEW : GENNANK NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
=REFSEQ DATABASES=
*REFSEQP :REFSEQ PROTEIN
*REFSEQG :REFSEQ GENOMIC
*REFSEQRNA :REFSEQ RNA
*REFSEQNEW :REFSEQ NEW
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
=UNIPROT DATABASES=
*UNIPROT :Swiss-Prot, TrEMB
*UNIPROT_VSP : varsplic
=STRUCTURE PDB DATABASE=
*PDB: Protein Data Bank
=GEO DATABASE=
*MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf](SAGE,RNA,CGH)
=OTHER=
*UCSC, Alignments, INTERPRO, GO, TAXONOMY, MACSIM, EVI-GENORET (local user), STRING (local user), UMD Data (local user), ...
=ALIAS Database Names=
*PROTEIN: UNIPROT +PDB +REFSEQP
*REFSEQ : RESEQP FULL=PROTEIN+GENOMIC+RNA+NEW
*GBFULL : GENNANK FULL=EST+RELEASE+WGS+NEW
*NUCLEOTIDE : =GBFULL
Format: EMBL, GENBANK, XML,GEO SOFT, CSV, OBO/OWL, PDB, UMD, Relational Schema (XML Metadata).
[[Category:Bird_project]]
61823c19d92303a99a413de5ed078970d2243263
String
0
1421
2671
2009-12-13T16:46:20Z
Ripp
1
New page: STRING - Known and Predicted Protein-Protein Interactions from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interac...
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local la base de données PostgreSQL String8.2 et développer quelques outils pour l'interroger.
=Gscope DePartoutAString=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
DePartoutAString {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé Sting_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
* GetWhat ne sert plus car on rend tout !
DePartoutAString va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP String=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "DePartoutAString", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans DePartoutAString !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tou ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# IL apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
497cb70a89f8f19cd23df056ecd5883e7b0dc33f
2672
2671
2009-12-13T16:52:15Z
Ripp
1
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment chrger Cytoscape avec les données fournies.
=Gscope DePartoutAString=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
DePartoutAString {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé Sting_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
* GetWhat ne sert plus car on rend tout !
DePartoutAString va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP String=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "DePartoutAString", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans DePartoutAString !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tou ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# IL apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
00db13b1b07e64486114e605514bad96ce18b177
2673
2672
2009-12-16T09:46:14Z
Ripp
1
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment chrger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé Sting_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
* GetWhat ne sert plus car on rend tout !
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
574e4e0df4a9671361d7235742b0987919a90789
2674
2673
2009-12-16T10:05:43Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé Sting_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
* GetWhat ne sert plus car on rend tout !
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
574cdcbdc5a6afa8d904311aec6e5ce22b067001
2675
2674
2009-12-16T10:07:22Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""} {GetWhat ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
* GetWhat ne sert plus car on rend tout !
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
576dfa95a031d3ec18651f2e788782963bc35002
2676
2675
2009-12-16T10:13:32Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contiendra une colonne appelée QueryColor et qui permettra de colorier les gènes de départ
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
a2a4a318fbf9ba33a583e7f20d0d5a75288203e0
2677
2676
2009-12-16T10:21:27Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression) (par défaut contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ)
Identifiers contient les identifiants String
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
149294b8f9fc2b085109eb6444903aadf7e84106
2678
2677
2009-12-16T10:24:53Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes de départ
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
65c8e326f105edb5a6535a353f743e232ad03969
2679
2678
2009-12-16T10:33:24Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes de départ
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec au moins deux interactions
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt un résumé de pour qui on a trouvé un identifiant String "vide" si non
WithAny.parser je sais pas !
WithAny.string network avec toutes les interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
9e588a8f81961582460ca4276e707a85694e25f3
2680
2679
2009-12-16T10:46:06Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
2e41ccd790185509a2dbf5a44e2a0ca4f9534199
2681
2680
2009-12-16T10:52:30Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
NB: la ligne d'entête doit commencer par #
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
846ba5bf53dc12b05e31ad7d088b4d6db2e71b5d
2682
2681
2009-12-16T10:53:23Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc.)
NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
6460c12ec94678dd8b5e7ea9a3e85121688e4db5
String
0
1421
2683
2682
2009-12-16T10:53:55Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
de535bd64da45bc7d6916a58d92c91cf20af2448
2684
2683
2009-12-16T10:56:58Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''.
Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
a74580667ab5bfa232880fff83402fce45965b83
2685
2684
2009-12-16T10:57:28Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser je sais pas !
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
dce4a3ecd3252a88a80a4acd26a2b979ac09665c
2686
2685
2009-12-16T13:49:35Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
42c5d416cdd7130657f1b8007132530947f532b2
2687
2686
2009-12-16T13:51:38Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
2b7b0b2d2b2b68fc723ccec549245a81ee08c47a
2688
2687
2009-12-16T13:52:01Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
20a1ef5602302d64d3d584c9766339ed23ec2589
2689
2688
2009-12-16T13:54:59Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être télécharger.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
881c925ea89d84a5ffccd98246782c455086295e
2690
2689
2009-12-16T13:58:26Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
6f60755f5d223dfad2909b333e2f1a5d53f5ab36
2731
2690
2010-03-25T06:58:24Z
Wraff
5
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
6e79afa5cd08052bc9f799dca7c991909d33902a
Gscope Procedures
0
1418
2691
2640
2010-01-20T14:30:43Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a String analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
f146fcbce8119d8ec409393aa3f1bfe839f1d8dc
2692
2691
2010-01-20T14:32:25Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
620a77b8be5cbdb7234e05a678fecd50ef743ee8
2693
2692
2010-01-20T14:36:17Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
dbc90eb80bdecc887d6c2bb65c672612dd80b866
BIRD
0
1313
2694
2576
2010-01-28T13:14:46Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H, Wicker N., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]
3. "Conception of the BIRD System" is preparing for .....
4. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
45f05ebc7f6d98de5f5884cce2a310db94b11072
2695
2694
2010-01-29T17:33:40Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30]
* These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)
* These authors contributed equally to this work
3. "Conception of the BIRD System" is preparing for .....
4. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
f4e16c413e70882be15c1d790987b35bbab0978b
2696
2695
2010-01-29T17:35:44Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
3. "Conception of the BIRD System" is preparing for .....
4. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
9fb462e4115d9c512e958696fe0c891b43785e13
2697
2696
2010-01-29T17:36:52Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
3. "Conception of the BIRD System" is preparing for .....
4. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
e694ba61856741f5ad05c853ef6d86658585013a
2698
2697
2010-01-29T17:37:42Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
To cite BIRD System, please use the following publication;
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. "Conception of the BIRD System" is preparing for .....
5. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
4bcb1d2f14567c6943dc8291f7ebf149e811ce8e
2699
2698
2010-01-29T17:54:39Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. "Conception of the BIRD System" is preparing for .....
5. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
ca47479602e76e2060c1efd8b75e783a4482cf0b
2700
2699
2010-01-29T17:59:11Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. "Conception of the BIRD System" is preparing for .....
8. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
7b86e963e6b5c8ab7b40b272bb3a0199d9e5ed50
R
0
1320
2701
2669
2010-02-11T17:23:26Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the [[BioInfoClub]]
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
0c9decfb8514e8111002f2e505b991f6eafe190b
2708
2701
2010-02-15T11:06:58Z
Wraff
5
/* Mailing Lists */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 ainsi que Alnitak (WR nov 09).<br>
L’installation est accompagnée d’une collection de >140 modules/packages "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des dépositoires principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique et le CGH.
Sur notre serveur il y a aussi quelques libraries installées, qui ne sont pas disponible travers ces respoitoires, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC [[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
5b03c8edbd0993c35823bba1c5ca22c3b8bd381d
2709
2708
2010-02-15T11:13:11Z
Wraff
5
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.10.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR nov 09).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >150 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
5c3385de6d69144ce39f7679c54b5618652620d9
BioInfoClub
0
1422
2702
2010-02-11T17:29:40Z
Wraff
5
New page: Bioinformatics journal club at the IGBMC The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075. For announcements p...
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc)
a562563efd428409fc1d8782552d51c1e1db657a
2703
2702
2010-02-11T17:30:25Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc)
f8fb6b852ea0b7225c17fc04a583b93e729ab8f6
2704
2703
2010-02-11T17:30:43Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems with the mailing list you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of R, conferences, etc)
d998d3bc1ebb619a9e42de62b294d1c3215cd26b
2705
2704
2010-02-11T17:31:06Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems with the mailing list you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]], conferences, etc)
877218a94f6a38ffc23790a3395e2ab862133bac
2706
2705
2010-02-11T17:31:28Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems with the mailing list you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R on our servers]], conferences, etc)
c7d210d18ecbbf943a32af7623dd69dad259ba89
2707
2706
2010-02-11T17:31:52Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems with the mailing list you may contact wraff (at) igbmc.fr
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc)
f7438711f798e683006d31f62ff3d33280d7770f
2710
2707
2010-02-15T11:14:29Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please sign in to the mailing list : Send a message
To/Pour : sympa@bess.u-strasbg.fr
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname
In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]]
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc)
992112115469674f30e842cb6f0e6bda357b1930
2712
2710
2010-02-17T10:37:35Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club mailing list at the IGBMC
The BioInfoClub meets once a month, in particular every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please '''sign in''' to the mailing list : Send a message<br>
To/Pour : sympa@bess.u-strasbg.fr<br>
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname<br>
In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]]
Furthemore the BioInfoClub mailing list allows to distribute other related information (eg updates on the installation of [[R]] on our servers, conferences, etc)
f8baf16da42ca2e5f1fac209f0b549740c25d7e9
2713
2712
2010-02-17T10:41:15Z
Wraff
5
wikitext
text/x-wiki
Bioinformatics journal club mailing list at the IGBMC
The '''BioInfoClub''' meets once a month to discuss a recent important publication in the field. This takes place every 3rd tuesday of the month at the IGBMC ground floor meeting room 0075.
For announcements please '''sign in''' to the mailing list :<br>
Send a message<br>
To/Pour : sympa@bess.u-strasbg.fr<br>
Re/Sujet : SUBSCRIBE bioinfoclub Firstname Lastname<br>
In case of problems with the mailing list you may contact [[Wolfgang_Raffelsberger|Wolfgang]]
Furthemore, the BioInfoClub mailing list allows to '''distribute other related information''' (eg updates on the installation of [[R]] on our servers, meetings & conferences, etc)
462495e909029bd20697ef2a6a88399ea7f7a4f9
Wolfgang Raffelsberger
0
1339
2711
2484
2010-02-15T11:15:19Z
Wraff
5
wikitext
text/x-wiki
Bonjour,
e-mail : wolfgang.raffelsberger (at) igbmc.fr
please see my site / voir aussi mon site [ http://www-bio3d-igbmc.u-strasbg.fr/~wraff]
I am member of the BioInformatique et Génomique Intégratives ([[LBGI]]),
Department of Structural Biology and Genomics ([[DBGS]], CNRS UMR7104),
at the Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
Je suis membre du Laboratoire de BioInformatique et Génomique Intégratives ([[LBGI]]),
du Départment de Biologie et Génomique Structurales ([[DBGS]]),
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]]).
<br>
General Research Interest : Bioanalysis, BioInformatics, Biostatistics <br>
Specialization : Transcriptomics, CGH, Functional Genomics, Data Mining
bbd34635d4c1425b307afb324bdb604062ef87d3
Fed
0
1286
2714
2655
2010-03-15T14:25:55Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** Datafiles can be uploaded in Galleries of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
* [[Gallery]]
** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
* [[Datafile]]
** a Datafile is a file which was uploaded by a member.
** a Datafile has an owner.
** It can be referenced in several galleries.
** it has a visibility group called Grog which allows to define access rights
* [[Grog]]
** a Grog is a group of groups, and people.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
==FedArchitecture==
voir [[FedArchitecture]]
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
722d032a4f961b2063437627823857a656b24695
2715
2714
2010-03-16T14:16:23Z
Ripp
1
wikitext
text/x-wiki
'''Fed''' : '''Fe'''derating '''d'''ata by [[Guillaume Berthommier]] and [[Raymond Ripp]]
==What is Fed==
Fed consits of
* a PHP based website using Html and Javascript
* a PostgreSQL Relational Database
It allows to manage (see more with [[Fed Web Architecture]])
* '''Teams'''
** people
** workpackages
** components
** centres
* '''Data'''
** Datafiles can be uploaded in Galleries of documents
** or fully integrated in the Relational Database
* '''Thematics''' (or Projects)
** corresponding to one or several workpackages
** transversal to the whole database
* [[Gallery]]
** The Galleries are organized as a hierachical tree of Galleries, each Gallery contains Datafiles and other Galleries.
* [[Datafile]]
** a Datafile is a file which was uploaded by a member.
** a Datafile has an owner.
** It can be referenced in several galleries.
** it has a visibility group called Grog which allows to define access rights
* [[Grog]]
** a Grog is a group of groups, and people.
The people can upload their Datafiles in a Gallery. These data are then especially processed to be integrated in the Relational Database.
==Advantages of Fed==
* A unique common set of PHP programs controls all Fed instances.
** These programs are developped and maintained by Guillaume and Raymond.
** A copy of them can be used on a distant computer.
* Each Fed instance has its own private look and feel and relational database as well as specific programs.
** The web site and pecific programs can also work without Fed
==Several Feds can be federated==
One interesting point is that several 'independant' Fed can be federated.
* only the people are known everywhere
* groups of people are defined independently in each Fed.
This can be easily done if the creation of new users is centralized on the unique [[FedLord]]. The information concerning the new user is then transferred to the local Fed especially the Pk which has to be the unique Id of the user.
==Projects federated with Fed==
* EVI-[http://www-genoret.u-strasbg.fr/genoret/wiki Genoret Database]
* [[RetinoBase]] the transcriptomic database
* [[GenoretGenes]] (very soon)
* [[DBGS]] Département de Biologie et Génomique Structurales
* [[Gx]] the website of [[GxDb]] the Gene eXpression DataBase
* [[IdV]] the Genoret database like website for the [http://IdV.inserm.fr Institut de la Vision] in Paris
* [[ImAnnoWeb]] the self consistant website for [[ImAnno]]
==Installation==
Guillaume a pu automatiser quelques étapes de l'installation.
voir dans phpWebGB/wizard
==FedArchitecture==
voir [[FedArchitecture]]
Et voici quelques outils que Raymond a rajoutés depuis
===[[CheckTsearch]] : Mise en oeuvre de tsearch pour une base de données postgresql===
Il suffit de lancer (il est dans le menu WebTools/WebSite). Voir [[CheckTsearch]] car il y a quelques détails à préciser.
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
08e2ab1b50511b42489169a350d0845fe9ed6d01
FedArchitecture
0
1423
2716
2010-03-17T20:35:06Z
Ripp
1
New page: Fed ... c'est gros ! Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toute sorte d'outils. Il y a : * Une base SQL contenant le minimum d'utilisateurs, g...
wikitext
text/x-wiki
Fed ... c'est gros !
Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toute sorte d'outils.
Il y a :
* Une base SQL contenant le minimum d'utilisateurs, groupes, etc.
* Un ensemble de programmes PHP
* Une arborescence minimale du site web
==La base SQL==
==Le PHP==
===Ce qu'a fait Guilllaume===
===Les compléments de Raymond===
==L'arboresence minimale==
fd8515868f601ccb9bc543af763e8b6b1485d827
2717
2716
2010-03-19T16:48:51Z
Ripp
1
wikitext
text/x-wiki
Fed ... c'est gros !
Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toutes sortes d'outils.
Il y a :
* Une base SQL contenant le minimum d'utilisateurs, groupes, etc.
* Un ensemble de programmes PHP
* Une arborescence minimale du site web
==La base SQL==
La base de données PostgreSQL permet de gérer les utilisateurs, grogs, groupes de travail dafafile
==Le site Web==
==Le PHP==
===Ce qu'a fait Guilllaume===
===Les compléments de Raymond===
==L'arboresence minimale==
f7397fbe6052f95dda8e432e9836323b55001027
2718
2717
2010-03-19T16:49:45Z
Ripp
1
Protected "[[FedArchitecture]]" [edit=autoconfirmed:move=autoconfirmed]
wikitext
text/x-wiki
Fed ... c'est gros !
Et en fait c'est ce qu'il faut pour construire un site web avec utilisateurs et toutes sortes d'outils.
Il y a :
* Une base SQL contenant le minimum d'utilisateurs, groupes, etc.
* Un ensemble de programmes PHP
* Une arborescence minimale du site web
==La base SQL==
La base de données PostgreSQL permet de gérer les utilisateurs, grogs, groupes de travail dafafile
==Le site Web==
==Le PHP==
===Ce qu'a fait Guilllaume===
===Les compléments de Raymond===
==L'arboresence minimale==
f7397fbe6052f95dda8e432e9836323b55001027
2719
2718
2010-03-19T17:14:22Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] est, en fait, un CMS fait maison.
Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris.
==La base SQL==
La base de données PostgreSQL permet de gérer les utilisateurs, groupes de travail, fichiers de données ([[Datafile]]) téléchargés par les utilisateurs, grogs (droits d'accès aux datafiles), etc.
==Le site Web==
Il permet la navigation parmi les Components, Workpackages, People, Galleries, Datafiles ainsi que la création, mise à jour et parcours des projets spécifiques.
===
==Le PHP==
===Ce qu'a fait Guilllaume===
===Les compléments de Raymond===
==L'arboresence minimale==
7d8bda8afbca3df8f2e365722422cfa914dc328f
2726
2719
2010-03-23T11:15:14Z
Ripp
1
Unprotected "[[FedArchitecture]]"
wikitext
text/x-wiki
[[Fed]] est, en fait, un CMS fait maison.
Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris.
==La base SQL==
La base de données PostgreSQL permet de gérer les utilisateurs, groupes de travail, fichiers de données ([[Datafile]]) téléchargés par les utilisateurs, grogs (droits d'accès aux datafiles), etc.
==Le site Web==
Il permet la navigation parmi les Components, Workpackages, People, Galleries, Datafiles ainsi que la création, mise à jour et parcours des projets spécifiques.
===
==Le PHP==
===Ce qu'a fait Guilllaume===
===Les compléments de Raymond===
==L'arboresence minimale==
7d8bda8afbca3df8f2e365722422cfa914dc328f
2727
2726
2010-03-23T11:48:19Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] est, en fait, un CMS fait maison.
Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris.
pour la suite voir [[wikilbgiprivate:Fed]]
f24d35c00dceeb233eaba9a2fd8a8e92ab0c0ed5
2728
2727
2010-03-23T11:48:41Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] est, en fait, un CMS fait maison.
Initialement [[Guillaume Berthommier]] et [[Raymond Ripp]] ont développé [[Genoret Database]] pour le projet européen EVI-GENORET (2005-2009). Fed n'est qu'une généralisation de ce CMS qui peut être instancié pour créer un nouveau site comme par exemple [[Gx]] (le Fed permettant de gérer [[GxDb]]), [[DBGS]] pour le [[Département de Biologie et Génomique Structurales]] de l'IGBMC, ou [[IdV]] pour l'Institut de la Vision à Paris.
pour la suite voir [[wikilbgiprivate:FedArchitecture]]
3582b3293971337f6adbdaa8b477afee721ed8a5
Gx
0
1424
2720
2010-03-19T17:21:45Z
Ripp
1
New page: GX est le site web permettant la création, la gestion, l'analyse et la visualisation de données de transcriptomique de [[GxDb]] (Gene eXpression DataBase du [[LBGI]]) Gx est une instanc...
wikitext
text/x-wiki
GX est le site web permettant la création, la gestion, l'analyse et la visualisation de données de transcriptomique de [[GxDb]] (Gene eXpression DataBase du [[LBGI]])
Gx est une instance [[Fed]], le CMS maison développé par [[Guillaume Berthommier]] et [[Raymond Ripp]]
4a2d69d8814c2ab4fcaed8a72bd0b95221b088a7
Raymond Ripp
0
1334
2721
1615
2010-03-19T17:23:19Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et [http://alnitak.u-strasbg.fr/~ripp mon site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
==Ma vie mon oeuvre==
[http://lbgi/igbmc.fr/~ripp ma page]
4bccda68f0e8447be55db75292848bdfcbbd88ab
2729
2721
2010-03-23T11:51:16Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et mon [http://lbgi.igbmc.fr/~ripp site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du Laboratoire de BioInformatique et Génomique Intégratives [[LBGI]],
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
0d7261e522ab78146ff0f551b1aae4dc78658aa9
Main Page
0
1279
2722
2670
2010-03-23T11:02:55Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] .
==Progiciels==
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ca3ab1dd7fb7f671effb971be540fabf07ddeee1
CVS
0
1317
2723
1631
2010-03-23T11:04:24Z
Ripp
1
wikitext
text/x-wiki
CVS est maintenant remplacé par [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion]
'''Concurrent Versions System''' est un système client/serveur qui permet aux utilisateurs d'avoir les sources de programmes et de les maintenir à jour à partir d'un dépôt. Il permet également aux développeurs de voir l'historique des modifications et de récupérer une ancienne versions stable. CVS permet aussi à plusieurs développeurs de travailler sur les mêmes sources, en unifiant leurs améliorations.
CVS est installé sur alnitak.
Pour pouvoir l'utiliser, contacter [mailto:gagniere@igbmc.u-strasbg.fr?subject=CVS%20Inscription Nicolas Gagnière].
Vous aurez un répertoire sur /cvs qui sera sous votre responsabilité pour les droits et l'arborescence de vos projets.
=Voir aussi=
[http://fr.wikipedia.org/wiki/Concurrent_versions_system Le wikipedia]
[http://www.gentoo.org/doc/fr/cvs-tutorial.xml un tuto sympa]
[http://ricky81.developpez.com/tutoriel/cvs/introduction/ Le tuto de developpez.com]
b9d6d70aee32734ab0f85d8b06442a0414a02108
StringInteractome
0
1425
2724
2010-03-23T11:10:48Z
Ripp
1
New page: StringInteractome est une fonction de Gscope voir [[String]]
wikitext
text/x-wiki
StringInteractome est une fonction de Gscope
voir [[String]]
1e2d4dee0b215d89bd29e9bec2afced250eb0a27
2725
2724
2010-03-23T11:11:34Z
Ripp
1
wikitext
text/x-wiki
StringInteractome est une fonction de Gscope qui est aussi accessible depuis PHP
voir [[String]]
82c80f126d1864002ae57d4c2f6df91177ba21c2
EuroTcl
0
1403
2730
2414
2010-03-23T11:53:32Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meeting 2008 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
was held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 and June 2009.
see you again in June 2010 at IGBMC !
==Presentation from Raymond Ripp==
Research in Biology is no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites.
After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress.
78af629ebb9af1d037b6e852c466c17217f1ff8c
GxDb
0
1426
2732
2010-04-06T08:02:28Z
Ripp
1
New page: GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
be27a016025d4f439c8709e7e56add931ff027dd
BIRD
0
1313
2733
2700
2010-05-07T08:04:58Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
7. "Conception of the BIRD System" is preparing for .....
8. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
2ed2ab6c9901e2d3c2a4a393477cc0f6573c67a2
2734
2733
2010-05-07T08:05:32Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
8. "Conception of the BIRD System" is preparing for .....
9. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.pdf]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.pdf]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
8f6103b8b9875bd3c7552d30d79bd4e21aa91ff1
2739
2734
2010-06-23T07:38:32Z
Nguyen
15
/* Powerpoint Presentations of BIRD System */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
8. "Conception of the BIRD System" is preparing for .....
9. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystem_ENSLyon11MAI07.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
dc548ab321869e313c973bf46f7d5655f742a935
2740
2739
2010-06-23T07:57:28Z
Nguyen
15
/* Powerpoint Presentations of BIRD System & SM2PH& DDC */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
8. "Conception of the BIRD System" is preparing for .....
9. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
0620e3fd82ff45699ab25b2341cfb41a25796705
2741
2740
2010-06-23T07:59:20Z
Nguyen
15
/* Powerpoint Presentations of BIRD System & SM2PH& DDC */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
8. "Conception of the BIRD System" is preparing for .....
9. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
b126795bc5d38512bb97d1ba1346ecc25bfa1160
2742
2741
2010-06-23T08:00:18Z
Nguyen
15
/* Powerpoint Presentations of BIRD System & SM2PH& DDC */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDFinalCoria08.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, is preparing for...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press. (paper accepted, in preparation).
All authors contributed equally to this work.
8. "Conception of the BIRD System" is preparing for .....
9. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
3f4c54021936c3dc2db1c2166e62202491ed8f2b
2747
2742
2010-08-23T08:42:15Z
Nguyen
15
/* Publications */
wikitext
text/x-wiki
BIRD System (BIRD,[http://decrypthon.u-strasbg.fr/birdweb/]): Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===Theories and Functionalities===
KDD Steps
[[Image:kddstep.jpg]]
KDD Tecnhique & Algorithm
[[Image:algo3.jpg]]
KDD Data Model & View
[[Image:modelview.jpg]]
====Association rule learning====
a.'''What Is Association Rule Mining?'''
Describing association relationships among the attributes in the set of relevant data
Frequent pattern mining: find all frequent patterns in a database
Frequent patterns: patterns (set of items, sequence, etc.) that occur frequently in a database [AIS93]
Frequent pattern mining: finding regularities in data
+What products were often purchased together? Beer and diapers?!
+What are the subsequent purchases after buying a product( ex. car)?
+Can we automatically profile patient or gene ?
Example in BIRD-QL
[[Image:birdqlrules.jpg]]
b.'''Basic'''
Rule Definition
Body ==> Consequent [ Support , Confidence ]
(IF <> THEN <>)
Body: represents the examined data.
Consequent: represents a discovered property for the examined data.
Support: represents the percentage of the records satisfying the body or the consequent.
Confidence: represents the percentage of the records satisfying both the body and the
consequent to those satisfying only the body
Itemset: a set of items
=>E.g., acm={a, c, m}
Support of itemsets
=>Sup(acm)=3
Given min_sup=3, acm is a frequent pattern
Frequent pattern mining: find all frequent patterns in a database
[[Image:rulesbasic.jpg]]
c.'''Apriori Algorithm'''
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Q; k++) do
Ck+1 = candidates generated from Lk;
for each transaction t in database do increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
return UkLk; (Union)
[[Image:Apriori.jpg]]
====Kohonen´s feature maps====
A Kohonen’s self organizing feature map (K-map) uses analogy with biological neural
structures where the placement of neurons is orderly and reflects the structure of external (sensed)
stimuli (e.g. in auditory and visual pathways).
A K-map learns, when continuous-valued input vectors are presented to it, without specifying the
desired output. The weights of connections can adjust to regularities in the input. A large number of
examples is needed.
K-map mimics well learning in biological neural structures. It is used in speech recognizers.
This is a flat (two-dimensional) structure with connections between neighbors and connections
from each input node to all its output nodes.
It learns clusters of input vectors without any help from a teacher. It also preserves closeness (topology).
'''Learning in K-maps'''
1. Initialize weights to small random numbers and set initial radius of neighborhood of nodes.
2. Get an input x1, …, xn.
3. Compute distance dj to each output node:
dj = (xi - wij)2
4. Select output node s with minimal distance ds.
5. Update weights for the node s and all nodes in its neighborhood:
wij´= wij + h* (xi - wij), where h<1 is a gain that decreases in time.
Repeat steps 2 - 5.
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
http://decrypthon.u-strasbg.fr/birdweb/
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press.
All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN
8. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653302
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
a0c0adf0c733e4f23e6aac62e1dce475f01ee284
FedLord
0
1332
2735
1823
2010-05-15T15:32:05Z
Ripp
1
wikitext
text/x-wiki
FedLord is the unique database centralising the [[Fed]] users of a federeation of Fed databases.
If all people are centralised in this database it will be possible to share the access rights within several Fed servers.
Historiquement c'est Genoret Database qui jouait le rôle de FedLord. Puis nous avons créé une FedInstance spécifique FedLord.
66f5207fb523d8b3e7db190d2b3ca2b9051eeb3a
Cluspack
0
1353
2736
2558
2010-05-15T15:32:49Z
Ripp
1
wikitext
text/x-wiki
==Principe==
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
==Format d'entrée==
Le fichier d'entrée doit être formaté de la façon suivante :
* la première ligne indique le nombre des lignes et des colonnes.
* la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
* les lignes suivantes sont de la forme
** la première colonne des données peut contenir des identifiants
** les autres colonnes de texte, annotation etc devront se trouver à la fin
==Utilisation==
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br>
or:<br>
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br>
autres choix des parametres : <br>
-cm=kmeans <br>
number of clusters :<br>
(mixturemodels :) -nbc=bic <br>
(kMeans :) -nbc=dpc <br>
density : <br>
(kMeans :) -dt1
more options :<br>
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
[-dt1|-dt2][-standardization] (dt1 stands for density1)
[-standardized_data][-wc] (wc stands for write_coordinates)<br>
[-fd=number] (dt stands for filtering_distance)<br>
[-nbsim=nbsimulations]<br>
[-otfa=outputFile for alignment]<br>
[-oclu=outputFile for clustering]<br>
Suggestion:<br>
run cluspack with nohup<br>
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack<br>cluspackX
Il existe aussi une variante de '''clustering itérative''' en ligne de commande:
(cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10
181dc1875282dfc9bfdc8f0198bfd54a2bd41de8
EuroTcl
0
1403
2737
2730
2010-05-15T15:43:02Z
Ripp
1
wikitext
text/x-wiki
The European Tcl/Tk User Meetings 2008 and 2009 see [http://www.eurotcl.org/ http://www.eurotcl.org/]
were held in IGBMC, Illkirch Strasbourg, France June 6-7 2008 and June 2009.
see you again in June 4th and 5th 2010 at IGBMC !
==Presentation from Raymond Ripp==
Research in Biology is no more possible without intensive use of computers and databases.
In our Laboratory of Integrative BioInformatic and Genomics (LBGI), we developped tools in Tcl/Tk allowing the analysis and management of a huge amount of heterogeneous data. This data is produced locally or by numerous worldwide bioinformatic centers. It covers various types of data such as biological sequences, from single protein or mRNA to whole genomes (3.4 GigaBases for the human genome), together with their complex features, as well as sets of experimental results or data treaments like transcriptomics data, comparison searches, multiples alignments, image processing, etc. The different types of data are stored in flat files, html pages or more or less well structured databases. Altogether this required the development of high throughput data retrieval, analysis procedures and data mining tools coupled to graphical interfaces and displays, and to specific databases and websites.
After a brief description of this context, we will present our Tcl/Tk developments made since 10 years by around 15 people, including biologists and students with very often minor background in programming languages. Tcl is easy to learn and allows quick progress.
85a011f245c5db3e41da8c825465659f222bbeba
Membres du LBGI
0
1333
2738
2243
2010-05-15T15:51:24Z
Ripp
1
wikitext
text/x-wiki
Les Membres du [[LBGI]]
Attention cette liste n'est peut-être pas à jour. Voir le [http://alnitak.u-strasbg.fr site web du LBGI].
* [[Laurent-Philippe Albou]] (doctorant)
* [[Radhouene Aniba]] (doctorant)
* [[Yannick-Noël Anno]] (doctorant)
* [[Guillaume Berthommier]] (ex IE 3A CDD) (travaille maintenant dans le privé)
* [[Laurent Bianchetti]] (IR2 INSERM)
* [[Yann Brélivet]] (docteur)
* [[Sophie Siguenza]] (IE 1B CDD)
* [[Annaïck Carles]] (ex IE 3A CDD) (est maintenant à Fribourg en Allemagne)
* [[Anne Friederich]] (docteur) (Maître de Conférence en Botanique Université de Strasbourg)
* [[Nicolas Gagnière]] (docteur) (travaille maintenant dasn le privé)
* [[User:bedez | Florence Bedez]] (docteur) (enseignante en biologie)
* [[Véronique Geoffroy]] (IE 3A GIE)
* [[User:Dkieffer | David Kieffer]] (docteur) (travaille maintenant dans le privé)
* [[Odile Lecompte]] (MC2 ULP)
* [[Luc Moulinier]] (IE2 CNRS)
* [[Ngoc-Hoan Nguyen]] (post doc)
* [[Frédéric Plewniak]] (IR2 CNRS)
* [[Emmanuel Perrodou]] (post doc) (travaille maintenant dans le privé)
* [[Olivier Poch]] (DR2 CNRS)
* [[Laëtitia Poidevin]] (IE CDD)
* [[Wolfgang Raffelsberger]] (IR2)
* [[Ravikiran Reddy]] (docteur) (est en UK ou USA ...)
* [[Raymond Ripp]] (IR1 CNRS)
* [[Jean-Claude Thierry]] (DR1 CNRS)
* [[Julie Thompson]] (IE2 CNRS)
* [[Nicolas Wicker]] (MC2 ULP)
a99bfe3c8b4e896a01f2af374e0709e71e864127
R
0
1320
2743
2709
2010-07-08T09:14:08Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >150 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
b63c28c19dd30d3fdfc6fe1264018473127e82a9
2744
2743
2010-07-08T09:14:30Z
Wraff
5
/* Librairies */
wikitext
text/x-wiki
R est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
5518509b9ed8e8e4fadfce89d02fe4666e89d0e1
2745
2744
2010-07-08T09:16:34Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel pour les statistiques
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
5d00677a259cdae804c47807b332f2a7576203cf
2746
2745
2010-07-08T09:18:21Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
b057f4c01fdd28b335502fea6c1a2bc0023249a2
2769
2746
2010-10-01T08:23:10Z
Wraff
5
/* Librairies développées en collaboration avec le LBGI */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
c04070157abb42d2b12544059f89cb8f0814d52d
2770
2769
2010-10-01T08:23:22Z
Wraff
5
/* Librairies développées en collaboration avec le LBGI */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.11.1 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
D'ailleurs la version 2.7.2 peut être démarré avec : /linux/local/lib64/R-2.7.2/bin/R <br>
Et la version 2.9.1 peut être démarré avec : /linux/local/lib64/R-2.9.1/bin/R <br>
Sinon, R est disponible en version 2.6.2 sur [[Kilida et Alnitak]] En tapant: /usr/bin/R <br>
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
400a3269c8aced6b6b4aa399efeeeeedb12ecda2
RReportGenerator English
0
1366
2748
2367
2010-08-25T09:37:29Z
Ripp
1
wikitext
text/x-wiki
[http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
301c8b26de45a7b404bd759456532d819cdb6452
2781
2748
2010-11-03T09:46:24Z
Wraff
5
wikitext
text/x-wiki
[http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site]
<br>
Besides, we're also developing a web-version [RReportGenerator_on_the_Web] allowing to run calculations on our serveurs.
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
d5517cd2db13d97a43c618dc602f75fa32ccd919
2782
2781
2010-11-03T09:46:56Z
Wraff
5
wikitext
text/x-wiki
[http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] <br>
Besides, we're also developing a web-version [RReportGenerator_on_the_Web] allowing to run calculations on our serveurs.
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
28d7094325beec78ae407a64697225dd686b2f92
RReportGenerator on the Web
0
1427
2749
2010-08-25T09:42:36Z
Ripp
1
New page: [[RReportGenerator]] is also available through a web interface. [http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator] ==Installation== The main tcl program rrg...
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==Installation==
The main tcl program rrg.tcl remains nearly unchanged, it
5f5d7dcf55d91b338d09caa5ad629c1c20031a03
2750
2749
2010-08-25T12:33:46Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==Installation==
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' withfollowing lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* We should find a better way to test if it concerns http ...
* If no web '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
===Where are the files located?===
The rrg.tcl has to be in a directory accessible by the web server.
5db6779d6d67f0449358847b15477837dae98601
2751
2750
2010-08-25T14:57:49Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in the same directory accessible by the web server (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called Web which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
957487eb42c0e08e656c502f33deade53da52422
2752
2751
2010-08-25T16:32:09Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in the same directory accessible by the web server (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
b5da465fd6125585825f5410c96005c6ecc82e3c
2753
2752
2010-08-26T08:04:21Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* we need a directory accessible by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl
** or do it in the apache configuration
16239f2adb0c886a586a87c156b9c405b7e8d0b2
2754
2753
2010-08-26T08:12:01Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* we need a directory accessible by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=http://lbgi.igbmc.fr/rreportgenerator/rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
79ac7d87fb4752f576616e6a266108f5375298c0
2755
2754
2010-08-26T08:12:52Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* we need a directory accessible by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.php in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=http://http_server.fr/rreportgenerator/rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
a4d0a938463a01f2938832757fe2f05cc9183285
2772
2755
2010-11-02T11:07:13Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* we need a directory accessible by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''' '''rrg_web.tcl''' and the logos have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a sub directory called '''Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
c5b26e1e6d6bc0c32857d4fc94815c7a98d77d88
2773
2772
2010-11-02T11:10:27Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
f29944fc7344d735ab16a93dfaa5444c2b49d47e
2774
2773
2010-11-02T11:13:07Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif
## access to R, latex and pdflatex
# If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
d36d57f5f9ad444ab570f2a8ed45918dba0a99f6
2775
2774
2010-11-02T11:14:41Z
Ripp
1
wikitext
text/x-wiki
[[RReportGenerator]] is also available through a web interface.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''', written by Luc Moulinier, remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RreportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
## access to R, latex and pdflatex
# If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
e72d275cbfa6fc0efe31f1a965194b05e5e620c1
2776
2775
2010-11-03T09:40:51Z
Wraff
5
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
# A http web server (we use Apache)
# An already installed RReportGenerator
## with the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
## access to R, latex and pdflatex
# If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
0c9e71ebd1740ce8e846e495073fc8dcf7658110
Gscope
0
1287
2756
2623
2010-08-26T15:53:25Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
gscope -project YouProject puts Command arg1 arg2 arg3
and if you are shure not to use Tk
gscope -project YouProject -notk puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
bf2511ead81139955fb0c298a1c5d5f12af31091
2757
2756
2010-08-26T15:54:54Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
bb3d5100b38c6a9880d4d0e29d159dde9e6437db
Blast On Gscope Project
0
1428
2758
2010-09-06T15:28:06Z
Ripp
1
New page: Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project. The owner of the project can create as many blast data...
wikitext
text/x-wiki
Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project.
The owner of the project can create as many blast database as he wants.
How to create a blast database (for example all proteins)
cd $RepertoireDuGenome/prottfa
cat * > $RepertoireDuGenome/banques/AllProttfa
cd $RepertoireDuGenome/banques
formatdb -i AllProttfa -p T
this can be done by
gscope CreeUneBanqueBlast AllProttfa
Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...)
3c676009f14615824517dab22d9b51c8a5b2ea19
2759
2758
2010-09-06T15:33:38Z
Ripp
1
wikitext
text/x-wiki
Blast Database of a Gscope Project
==How to create it==
Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project.
The owner of the project can create as many blast database as he wants.
How to create a blast database (for example all proteins)
cd $RepertoireDuGenome/prottfa
cat * > $RepertoireDuGenome/banques/AllProttfa
cd $RepertoireDuGenome/banques
formatdb -i AllProttfa -p T
this can be done by
gscope CreeUneBanqueBlast AllProttfa
Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...)
==How to use it==
blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa
and ... on the web the fromular appears whern you do a search.
==Database not available==
If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond.
41474975f93895a5fc6cd72519a5d7ae8334e648
2760
2759
2010-09-06T15:35:23Z
Ripp
1
wikitext
text/x-wiki
Blast Database of a Gscope Project
==How to create it==
Each Gscope Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project.
The owner of the project can create as many blast database as he wants.
How to create a blast database (for example all proteins)
cd $RepertoireDuGenome/prottfa
cat * > $RepertoireDuGenome/banques/AllProttfa
cd $RepertoireDuGenome/banques
formatdb -i AllProttfa -p T
this can be done by
gscope CreeUneBanqueBlast AllProttfa
Attention ! if somebody uses Wscope (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...)
==How to use it==
blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa
and ... on the web, the fommular appears whern you do a search.
http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi
==Database not available==
If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond.
d93ebd4f03bfcced1a44ede7a0bda1cd69a57c5e
2761
2760
2010-09-06T15:36:13Z
Ripp
1
wikitext
text/x-wiki
Blast Database of a Gscope Project
==How to create it==
Each [[Gscope]] Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project.
The owner of the project can create as many blast database as he wants.
How to create a blast database (for example all proteins)
cd $RepertoireDuGenome/prottfa
cat * > $RepertoireDuGenome/banques/AllProttfa
cd $RepertoireDuGenome/banques
formatdb -i AllProttfa -p T
this can be done by
gscope CreeUneBanqueBlast AllProttfa
Attention ! if somebody uses [[Wscope]] (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...)
==How to use it==
blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa
and ... on the web, the fommular appears whern you do a search.
http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi
==Database not available==
If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond.
506ec95e9988cafde62c3d15886df9a659d1bab7
2762
2761
2010-09-09T09:32:47Z
Ripp
1
wikitext
text/x-wiki
Blast Database of a Gscope Project
==How to create it==
Each [[Gscope]] Project has a directory '''RepertoireDuGenome/banques''' where you can find the blast databases concerning the project.
The owner of the project can create as many blast database as he wants.
How to create a blast database (for example all proteins)
cd $RepertoireDuGenome/prottfa
cat * > $RepertoireDuGenome/banques/AllProttfa
cd $RepertoireDuGenome/banques
formatdb -i AllProttfa -p T
this can be done by
gscope CreeUneBanqueBlast AllProttfa
Attention ! if somebody uses [[Wscope]] (Gscope on the Web) the first available database will be choosen as default database, so the alphabetic order is important (anyway, the user can check what he wants ...)
==How to use it==
blastall -p blasp -i YourInputFasta.tfa -o YourOutputFile.blast -d $RepertoireDuGenome/banques/AllProttfa
and ... on the web, the fommular appears when you do a search.
http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gscope_html_server.tcsh?ProGS&RechercheMoi
==Database not available==
If you are on the web and no database appears, please ask the owner of the database to create it, or mail to Raymond.
18b3a0e33fae464d7a8f1600303b636c8698d17c
Wscope
0
1429
2763
2010-09-09T09:53:43Z
Ripp
1
New page: Wscope is the web interface of [[Gscope]] It runs as cgi-bin and has access to almost all procedures of Gscope http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 ...
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi)
*
82faf7140a1de6ae40996f161ae103979ed6df33
2764
2763
2010-09-09T10:04:33Z
Ripp
1
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi)
==GuideMoi==
The most common possible actions are listed BUT
The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc)
<source lang=tcl>
#put here the link and the text todispaly (separated by as many tabulations as you want, at least 1)
# line starting with # are skiped
# empty link and/or text are allowed
#Link Texte
[LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature
[WscopeScience]&Signal All Signals
[WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos )
[WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes
[WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics
[WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits
[WscopeScience]&AffichePof&AllPs All existing oligos
[WscopeScience]&AfficheVirtualPPCR All PCR products
[WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR)
[WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST)
[WscopeScience]&SpineSummaryOnWeb Spine Targets Summary
[WscopeScience]&OliWeb Order oligos (not yet available)
</source>
==FileMoi==
As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui])
<source lang=tcl>
#rR WscopeLinksFileMoi.txt
#Ref Text
[WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b>
[WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b>
[WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b>
[LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage
</source>
563043f49ec9c794f7533b68fe43a7a99a3bc30f
2765
2764
2010-09-09T10:08:38Z
Ripp
1
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files fromdirectory fiches (FicheMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi)
==GuideMoi==
The most common possible actions are listed BUT
The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc)
<source lang=tcl>
#put here the link and the text todispaly (separated by as many tabulations as you want, at least 1)
# line starting with # are skiped
# empty link and/or text are allowed
#Link Texte
[LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature
[WscopeScience]&Signal All Signals
[WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos )
[WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes
[WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics
[WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits
[WscopeScience]&AffichePof&AllPs All existing oligos
[WscopeScience]&AfficheVirtualPPCR All PCR products
[WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR)
[WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST)
[WscopeScience]&SpineSummaryOnWeb Spine Targets Summary
[WscopeScience]&OliWeb Order oligos (not yet available)
</source>
==FileMoi==
As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui])
<source lang=tcl>
#rR WscopeLinksFileMoi.txt
#Ref Text
[WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b>
[WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b>
[WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b>
[LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage
</source>
==RechercheMoi==
A textual search is done in all infos/BOXxxx files
The Blast search is done in the blast databases found in banques/ (see )
4ff5df48cd25f61b251b76c66a7272bce046a2f2
2766
2765
2010-09-09T10:11:23Z
Ripp
1
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi)
* http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi)
==GuideMoi==
The most common possible actions are listed BUT
The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc)
<source lang=tcl>
#put here the link and the text todispaly (separated by as many tabulations as you want, at least 1)
# line starting with # are skiped
# empty link and/or text are allowed
#Link Texte
[LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature
[WscopeScience]&Signal All Signals
[WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos )
[WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes
[WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics
[WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits
[WscopeScience]&AffichePof&AllPs All existing oligos
[WscopeScience]&AfficheVirtualPPCR All PCR products
[WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR)
[WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST)
[WscopeScience]&SpineSummaryOnWeb Spine Targets Summary
[WscopeScience]&OliWeb Order oligos (not yet available)
</source>
==FileMoi==
As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui])
<source lang=tcl>
#rR WscopeLinksFileMoi.txt
#Ref Text
[WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b>
[WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b>
[WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b>
[LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage
</source>
==RechercheMoi==
A textual search is done in all infos/BOXxxx files
The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]])
0a7b88da80d72011a5efd9b8657e1d59459d6c90
KEGG
0
1430
2767
2010-09-28T16:32:06Z
Ripp
1
New page: voir le private Lbgiki
wikitext
text/x-wiki
voir le private Lbgiki
617f7b2eef9d3e4c89ecea1b00f034e1735100c5
RReportGenerator
0
1342
2768
2055
2010-10-01T08:21:23Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
fc622743b3421be01a33a6cea6901b345187b2d2
2777
2768
2010-11-03T09:42:27Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang]
D'ailleurs nous développons aussi une version web [RReportGenerator on the Web] qui permet de réaliser des calculs sur nos serveurs de calcul.
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
3bb81d9a1818250d7b1c4e1b2f9cbe790e54384b
2778
2777
2010-11-03T09:43:47Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br>
D'ailleurs nous développons aussi une version web [RReportGenerator on the Web] qui permet de réaliser des calculs sur nos serveurs de calcul.
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
6996de4d85ccadc14a45496b65312028e673ddaf
2779
2778
2010-11-03T09:44:32Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br>
D'ailleurs nous développons aussi une version web [RReportGenerator_on_the_Web] qui permet de réaliser des calculs sur nos serveurs de calcul.
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
660133277f745c87db544a331a652638b9f828be
2780
2779
2010-11-03T09:44:50Z
Wraff
5
wikitext
text/x-wiki
(View this page in English : [[RReportGenerator_English]])
[http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] présente un outil convivial permettant de bénéficier de la plate-forme "[[R]]" 'également appelé R-project) pour des analyses statistiques automatiques et des taches de routine sans nécessiter des connaissances en langage R.
La plate-forme statistique "[[R]]" also called R-project ([http://www.r-project.org voir aussi le site de R]) et des vastes collections des modules supplémentaires sur [http://www.r-project.org CRAN] et [http://www.bioconductor.org/ Bioconductor] permettent des analyses très puissantes, mais sa syntaxe en ligne de commande rend ce programme difficile à utiliser aux non-statisticiens. [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] a été conçu pour effectuer des analyses suivant des scénarios d’analyses prédéfinis (écrites en langange [[R]] et [http://www.latex-project.org LaTeX] ) qu’on choisit grâce à l’interface graphique de l’outil (GUI). En résultat, un rapport en format .pdf contenant un résumé des résultats avec figures et/ou tableaux est généré de manière automatique et peut être accompagné par des données supplémentaires pour permettre l’utilisation dans d’autres programmes (Excel, etc.).
Le programme [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (en version Windows et Linux) avec plus des informations, tutorial et exemples est [http://www-bio3d-igbmc.u-strasbg.fr/~wraff disponible chez Wolfgang] <br>
D'ailleurs nous développons aussi une version web [[RReportGenerator_on_the_Web]] qui permet de réaliser des calculs sur nos serveurs de calcul.
Champs d'applications : <br>
Des exemples étaient developés pour des taches d’analyse automatique et de contrôle qualité provenant de :
# Transcriptomique : Il existent des scenarios d'analyse pour resumer une large collection de différentes controles qualités pour des puces d'expression Affymetrix [http://www.affymetrix.com] (voir aussi l'animation .flash montrant l'utilisation pour le QC des puces Affymetrix sur le site principale de RReportGenerator) . Il existe aussi un scenario d'analyse pour faire un résumé et des controles de qualités des puces par dépot (images analysées par [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization (CGH) [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization]. <br> Des scenarios disponibles utilsient 3 ou 4 différentes alogorithmes de segmentation et superposent des résultats dans un affichage des chromosomes.
# Puces à cellules transfectées (TCA) : Le sénario d'analyse determine un seuil basé sur des echantillons non-traités et donne automatiquement un résumé des échantillons sur la plaque courante. Un sénario pour analyser plusieurs plaques en même temps est en préparation.
En conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] permets d’effectuer des analyses statistique de routine tout en bénéficiant de l’environnement R à travers une interface graphique conviviale qui peut être utilisée facilement par des utilisateurs inexpérimentés.
Référence: <br>Ce programme est publié et accessible "open access" dans :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O;
ReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2007, 24(2), 276-278]
b0ebfae313b7dd695f78997fcfe325982022729c
CheckTsearch
0
1420
2771
2667
2010-10-15T09:12:41Z
Ripp
1
wikitext
text/x-wiki
Tsearch permet d'indexer tous les mots des colonnes des table PostgreSql
Ces index sont mis à jour à chaque insert, update, delete.
On peut choisir les colonnes à traiter. Raymond a créé un outil web CheckTsearch :
Il suffit de lancer (il est dans le menu WebTools/WebSite d'un [[Fed]]).
http://lbgi.igbmc.fr/gx/phpRR/CheckTsearch.php?database=gx
En gros on affiche toutes les tables avec toutes leurs colonnes et on demande lesquelles doivent être sous tsearch.
La colonne idxfti est créée si nécessaire.
Attention la suite "Il suffit... " marche mais ...
===Concernant la database===
Ca marche si la database est la base Fed dans laquelle on est.
Car il faut que php connaisse le PgDAO ... (ok pour GxDb, etc.). Voir le programme phpRR/CheckTsearch.php
===Il faut la fonction trigger dans le Catalog de postgresql===
Pour cela il fallait d'abord que je fasse
<source lang='tcl'>
CREATE OR REPLACE FUNCTION t_tsearch_trigger()
RETURNS trigger AS
$BODY$
set tscol [lindex $args 0]
set tsconf [lindex $args 1]
set nbargs [llength $args]
set fullstr ""
for {set i 2} {$i <= $nbargs-1} {incr i} {
set col [lindex $args $i]
if {![info exists NEW($col)]} {continue}
spi_exec "SELECT f_replace_chars('[quote $NEW($col)]') AS texte"
append fullstr $texte " "
}
spi_exec "SELECT to_tsvector('[quote $tsconf]','[quote $fullstr]') AS vect"
set NEW($tscol) $vect
return [array get NEW]
$BODY$
LANGUAGE 'pltcl' VOLATILE
COST 100;
ALTER FUNCTION t_tsearch_trigger() OWNER TO ripp;
</source>
et il faut aussi définir la fonction f_replace_chars dans pg_catalog functions.
<source lang='tcl'>
set search_path to pg_catalog;
-- Function: f_replace_chars(text)
-- DROP FUNCTION f_replace_chars(text);
CREATE OR REPLACE FUNCTION f_replace_chars(text)
RETURNS text AS
$BODY$
declare
mytext alias for $1;
res text;
begin
res := translate(mytext, '¢¥²³¹×àâäãáåÀÁÂÃÄÅçÇéèêëÉÈÊËîïìíÌÍÎÏñÑõôöòóøÒÓÔÕÖØùúûüÙÚÛÜýÿÝŶ',
'cY231xaaaaaaAAAAAAcCeeeeEEEEiiiiIIIInNooooooOOOOOOuuuuUUUUyyYY');
res := replace(res, 'Þ' , 'TH');
res := replace(res, 'þ' , 'th');
res := replace(res, 'Ð' , 'DH');
res := replace(res, 'ð' , 'dh');
res := replace(res, 'ß' , 'ss');
res := replace(res, '¦' , 'OE');
res := replace(res, '¶' , 'oe');
res := replace(res, 'Æ' , 'AE');
res := replace(res, 'æ' , 'ae');
res := replace(res, 'Œ' , 'OE');
res := replace(res, 'œ' , 'oe');
res := replace(res, '©' , 'C');
res := replace(res, '®' , 'R');
res := replace(res, '¾' , '3/4');
res := replace(res, '¼' , '1/4');
res := replace(res, 'µ' , 'mu');
return res;
end;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;
ALTER FUNCTION f_replace_chars(text) OWNER TO ripp;
</source>
===Attention idxfti n'est pas mis à jour s'il y a déjà des données===
Il faut faire, pour toutes les tables t, colonnes c.
update t set c=c
d270ad3b8a460c85b171d385b93d415cff6764ec
RReportGenerator English
0
1366
2783
2782
2010-11-03T11:45:37Z
Wraff
5
wikitext
text/x-wiki
[http://lbgi.igbmc.fr/~wraff/RReportGenerator/index.html RReportGenerator] provides a 'report-generator' tool for routine automatic statistical analysis with "R" in a highly user-friendly way via a graphical user interface (GUI) or an interative web page [[RReportGenerator on the Web]] <br>
While the statistical platform "[[R]]", [http://www.r-project.org/ see also the official site of R], and the vast collection of additional modules on [http://www.r-project.org/ CRAN] and [http://www.bioconductor.org Bioconductor] allow very powerful statistical analysis, it’s particular command-line syntax renders the program difficult to access for non-statisticians. In this context we have developed a program designed for routine executing of a predefined "analysis scenarios" for a given problem which can be easily operated by non-experienced users via it’s graphical interface. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel).
Analysis scenarios are written in the [http://www.r-project.org/ R] and [http://www.latex-project.org/ Latex] language and allow following a path of multiple steps of data-treatment including flexible generation of graphs and potential identification of warnings. The graphical user interface of [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows the user to simply choose among predefined analysis-scenarios to be applied this to a given data-set. In turn a pdf-report with the analysis results, tables and figures is generated that can be accompanied by supplemental data-sets for export to other programs (e.g. Excel). An example of mouse retina transcription profiling illustrates suitable tasks of quality control and analysis for automated analysis.
The program [http://alnitak.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] (compiled for Windows and Linux) and further informations, tutorial and examples are available [http://www-bio3d-igbmc.u-strasbg.fr/~wraff on Wolfgang's site] <br>
Besides, we're also developing a web-version [[RReportGenerator_on_the_Web]] allowing to run calculations on separate serveurs.
Applications : <br>
Predefined analysis-scenarios for automatic analysis have been developed for the following areas :
# Transcriptomics : Analysis scenarios combining a large collection of different types of quality control (QC) for [http://www.affymetrix.com Affymetrix] genes expression chips . <br>There is also a scenario for QC of printed arrays (images analyzed by [http://bioinfo.curie.fr/projects/maia/ MAIA]).
# Comparative genomic hybridization, [http://en.wikipedia.org/wiki/Comparative_genomic_hybridization CGH]: <br> The available scenarios use 3 or 4 different algorithms of segmentation and allow supperposing the results.
# Transfected cell array (TCA) : The analysis scenario(s) may be used to define a threshold based on non-treated control samples and to report a summary about all samples tested on a transfection plate.
Please check the supplemental information available with the analysis scenarios available through the www-library in RReportGenerator for further details. Using the www-library directly accesses the most recent versions of our public analysis scenarios.
In conclusion, [http://www-bio3d-igbmc.u-strasbg.fr/~wraff/RReportGenerator/index.html RReportGenerator] allows to run routine statistical analysis while benefitting from the environement of R via a convenient graphical interface (GUI) allowing inexperienced users to run routine analysis tasks.
Reference: <br>The program is published and accessible as open access :
Raffelsberger W, Krause Y, Mouliner L, Kieffer D, Morand AL, Brino L, Poch O; <br>
RReportGenerator : Automatic reports from routine statistical analysis using R. [http://bioinformatics.oxfordjournals.org/cgi/reprint/btm556v1 Bioinformatics 2008, 24(2), 276-278]
Limitations:<br>
The overal reliability of automatic analysis depends very much on the capacity and flexibility of the algorthims used to recognize (and adopt data analysis accordingly) for special cases.
In practice this means that the interface human experimenter to machine (and the other way round) remains a delicate place where numerous "misinterpretations" or "misunderstanding" may happen. In this context the analysis scenarios implemented with RReportGenerator don't intend to replace in-depth analysis performed by a real specialist, but rather to aid such analysis by providing those elements that can be easily generated using automated procedures. <br>
Physical/compoutatinal limitations:<br>
Treatment of larger numbers of Affymetrix gene-exporession profiling arrays requires large amounts of RAM on your computer (see also the numerous discussions in the R news-groups). On a PC with Windows XP with 1 GB RAM you can treat up to 30 Affy arrays with the analysis scenario 'automAffyQC1.Rnw'. Up to 200 Affy arrays have been treated sucessfully on a Linux server with 16 GB RAM, further improvements (in particular for the time requiresd) for large jobs are under development.
<br>... voir cette page en Francais : [[RReportGenerator]]
f536ffa2c16d08c99d9a38cfc305998927f17218
RReportGenerator on the Web
0
1427
2784
2776
2010-11-10T09:00:04Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
# A http web server (we use Apache)
# The RReportGenerator with
## the files rrg.tcl and rrg_web.tcl or their binary version
## the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
# Access to R, latex and pdflatex (they have to be in the binary path so we can find them with ''which R'' , ''which latex'' and ''which pdflatex'')
# If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
1db6c2e3ca2631bc2a0f03f610b55793a99a0fc1
2785
2784
2010-11-10T09:21:38Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
# A http web server (we use Apache)
# The RReportGenerator with
** the files rrg.tcl and rrg_web.tcl or their binary version
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
# Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
# If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
** or do it in the apache configuration
339c5816bdb61228b6ae0a4195b81f447a4e5c14
2786
2785
2010-11-10T09:23:05Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The RReportGenerator with
** the files rrg.tcl and rrg_web.tcl or their binary version
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
a78be0a9bad1e3bb521c7ed5cbc3c91c84f736d5
2787
2786
2010-11-16T17:43:26Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
'''A COMPILED VERSION WITH AN INSTALLATION WIZARD WILL BE AVAILABLE VERY SOON''' rest is obsolete
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The RReportGenerator with
** the files rrg.tcl and rrg_web.tcl or their binary version
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif and your LocalLogo.png
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* If you are running 'not compiled scripts' you need Tcl8.5 or higher
==Where have the files to be located==
* we need a '''directory accessible''' by the web server. We call it ''rreportgenerator''
* '''rrg.tcl''', '''rrg_web.tcl''' and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* in the same directory must exist a '''sub directory called Web''' which will contain the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the .tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* if you want to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** create a file index.html in ''rreportgenerator'' with a redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
cd4c559b7e4ce21f56b1f7e558d29368a2e3f0e9
2790
2787
2010-11-18T09:22:33Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The compiled RReportGenerator distribution rrg.tgz which contains
** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library)
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png'''
** a directory containing Scenarios and Indata
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz"
tar -zxvf rrg.tgz
ls -l
#UNcoment following lines if your want your own Web subdirectory located somewhere else
#mv Web WebFromDistribution
#ln -s /some/where/else/MyWeb Web
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
5e44bf6165bbdff26e402a02863eb211b4941ddc
2791
2790
2010-11-18T09:24:20Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The compiled RReportGenerator distribution rrg.tgz which contains
** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library)
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png'''
** a directory containing Scenarios and Indata
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz"
tar -zxvf rrg.tgz
ls -l
#Uncomment following lines if your want your own Web subdirectory located somewhere else
#mv Web WebFromDistribution
#ln -s /some/where/else/MyWeb Web
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
84f163e9391852b5ed8567eb4a305f53a53e2068
2792
2791
2010-11-18T09:26:02Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The compiled RReportGenerator distribution rrg.tgz which contains
** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library)
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png'''
** a directory containing Scenarios and Indata
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz"
tar -zxvf rrg.tgz
ls -l
#Uncomment following lines if your want your own Web subdirectory located somewhere else
#mv Web WebFromDistribution
#ln -s /some/where/else/MyWeb Web
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
d0a251840eb1170ba37ae8ea7be692e731c80bc8
2793
2792
2010-11-22T08:47:07Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* (We should find a better way to test if it concerns http ...)
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
=Installation=
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* The compiled RReportGenerator distribution rrg.tgz which contains
** the executable rrg.exe (=rrg.tcl + rrg_web.tcl + tcl runtime library)
** the logos RRG_logoTransparent.gif, RRG_generateReport.gif, LogoIGBMC.gif '''and your LocalLogo.png'''
** a directory containing Scenarios and Indata
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.tgz "http://lbgi.igbmc.fr/rreportgenerator/rrg.tgz"
tar -zxvf rrg.tgz
ls -l
#Uncomment following lines if your want your own Web subdirectory located somewhere else
#mv Web WebFromDistribution
#ln -s /some/where/else/MyWeb Web
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/Public
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
a5399464aab8d47e58cdb5b5bb102f5e205d79cf
2794
2793
2010-11-24T16:27:58Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extract automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe"
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done the first time you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
67eb1e0944d0485507cf7f59ae1b0b9511cc0e99
2795
2794
2010-11-24T16:28:54Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extract automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe"
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done the first time you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
eb3182f7d601e4743120b0ea844aef378d6b7366
2796
2795
2010-11-24T16:30:27Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.exe"
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
4a93d174aac1fc9c4d2aa7c78f664b0b516de26e
2797
2796
2010-11-25T08:52:31Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib"
# please use the '''.distrib''' extension (it's the stable version)
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
ae44faab551a17d93996c842c67f1429f95e3b71
2798
2797
2010-11-25T08:55:28Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib"
# please use the '.distrib' extension (it's the stable version)
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
064fdd1c33c398895d3890aef39a09a7ace69666
2799
2798
2010-11-25T13:37:36Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.exe'''
** It contains all what you need (=rrg.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.exe "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib"
# please notice the '.distrib' extension (it's the stable version, and the .exe version might be forbidden by the firewalls)
</source>
* '''rrg.exe''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.exe
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.exe as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.exe /real/path/to/the/directory/''rreportgenerator''/rrg.exe
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.exe
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.exe?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.exe he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
1f7e14cb9ff3fdd06f828a3a24810aa94d82f7f0
2800
2799
2010-12-13T15:01:08Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.tcl''' (it's not the source file but the compiled file !!!)
** It contains all what you need (=rrg_main.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.tcl "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib"
# please notice the '.distrib' extension (it's the stable version, and the .exe version might be forbidden by the firewalls)
</source>
* '''rrg.tcl''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.tcl he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg_main.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg_main.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
2f4751490b69104a7303785d93fb2c326e2c5570
2801
2800
2010-12-13T15:02:19Z
Ripp
1
wikitext
text/x-wiki
While the original [[RReportGenerator]] is/was designed as stand-alone, now we've developed a version that is available through a web interface.
This should allow users to benefit of servers that are much more powerful, in particular if the applications are memory consuming.
[http://lbgi.igbmc.fr/rreportgenerator http://lbgi.igbmc.fr/rreportgenerator]
==To run RReportGenerator on the Web you need==
* A http web server (we use Apache)
* Access to R, latex and pdflatex
** for Linux we use ''which R'' , ''which latex'' and ''which pdflatex''
** for Windows we search in the directory defined as the environment variable ProgramFiles
* The '''unique file rrg.tcl''' (it's not the source file but the compiled file !!!)
** It contains all what you need (=rrg_main.tcl + rrg_web.tcl + tcl runtime library + index.html + Logos + test scenarios and indata)
** At first run it extracts automatically the logos, index.html and creates the Web directory where the Scenarios, Indata and Outdata will be stored
==Installation on Linux==
* we need a '''directory accessible''' by the web server. We call it ''/var/www/rreportgenerator''
<source lang='bash'>
#suppose www-data is the user running the web server
sudo su - www-data
cd /var/www
mv rreportgenerator rreportgenerator.OLD
mkdir rreportgenerator
cd rreportgenerator
wget -O rrg.tcl "http://lbgi.igbmc.fr/rreportgenerator/rrg.distrib"
# please notice the '.distrib' extension (it's the stable version)
</source>
* '''rrg.tcl''', index.html and the logos (with your LocalLogo.png) have to be in that directory (if not in the same directory you can use unix links to simulate it)
* the '''sub directory called Web''' contains the scenarios, input and ouput files for all projects. (use links if they are elsewhere)
We can now use the url http://''http_server''/''rreportgenerator''/rrg.tcl
If this is done you can even use the url http://''http_server''/''rreportgenerator''
* To allow the execution of the rrg.tcl as cgi-bin you need following line in the apache configuration file
ScriptAliasMatch ^/''rreportgenerator''/rrg.tcl /real/path/to/the/directory/''rreportgenerator''/rrg.tcl
* Notice : to allow the url http://''http_server''/''rreportgenerator''
** do it in the apache configuration or ...
** use the file index.html in ''rreportgenerator'' with the redirection to rrg.tcl
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="REFRESH" content="0;url=./rrg.tcl?commande=WebForm">
</head>
</html>
==Write permissions==
===For the Web version===
The user running the http server needs to have write permissions to
* /var/www/rreportgenerator/Web where he creates
** /var/www/rreportgenerator/Web/web.log
** /var/www/rreportgenerator/Web/RRGDataForWeb containing the temporary files and RRG_config (can be modified)
** /var/www/rreportgenerator/Web/''ProjectX'' created when the user creates a new project ''ProjectX''
===For the standalone version===
When a user runs rrg.tcl he creates
* ~user/RRGConfiguration containing RRG_config and the temporary files
* the Output files in the directory defined as ''Output Folder''
=How it works=
The main tcl program '''rrg_main.tcl''' (mostly code by Luc Moulinier) remains nearly unchanged. We replaced the call to 'main' with following lines :
<source lang="tcl">
global env
if {! [info exists env(QUERY_STRING)] && $argv=={}} {
package require Tk
main
} else {
source "[file dirname [info script]]/rrg_web.tcl"
MainWeb
}
</source>
* If launched as local program, '''rrg_main.tcl''' requires the package Tk and runs normally
* If launched by the web server, '''rrg.tcl''' sources the additional file '''rrg_web.tcl''' (code written by Raymond Ripp) and sends a html page to the web browser.
* Any action from the user through his web browser will rerun '''rrg.tcl''', the arguments are always transfered within the web page and users queries, avoiding use of session variables.
* The user can switch between existing projects (if he knows the password) or create a new project.
* Within a project he can select, delete or create scenarios and input files.
* After selection of a scenario and input file the user can run RReportGenarator. This lauches the normal '''rrg.tcl''' from Luc and stores the result in the OutputDir of the project.
* These output files can be shown, downloaded and deleted by any user knowing the password of the project.
819d1de82c30269be1d879ffdf898556a42cea8c
String
0
1421
2788
2731
2010-11-16T18:39:05Z
Ripp
1
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est 'SameAsFile' (tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?StringInteractome&/genomics/link/toto/genes.lst&SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
294a9e797ffe4426f4b2e23717c4bc299a39096d
2789
2788
2010-11-16T18:44:31Z
Ripp
1
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
c8cc1e6e6bbda5eaf746aee4f55a7c347ee59201
2804
2789
2011-02-02T16:16:09Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
* par PipeWork ... voir le PipeWork [http://genoret.igbmc.fr/genoret/phpRR/lance.php?action=PiWo::PipeWorkEmbedded&whattodo=ImAnnoEarGeneListWithDiaVennString ImAnnoEarGeneListWithDiaVennString]
** en gros, il faut appeler ImAnnoString et lui fournir un array des données, les clés à garder dans le bon ordre (NM en premier), le nom de la racine (par ex. String_essai), un texte avec le context
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
96cc2ac98ef60d12c0f2096ce12dadf76077710f
2805
2804
2011-02-03T14:13:29Z
Poidevin
11
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
64c9c51c03ad00b354ff8443cb09d91d9dc6fa94
Instruct Bioinformatics
0
1431
2802
2010-12-20T17:36:35Z
Ripp
1
New page: Instruct Strasbourg Core Center Bioinformatics See the [http://dbgs.igbmc.fr/dbgs/Instruct Instruct Strasbourg Core Center WebSite]
wikitext
text/x-wiki
Instruct Strasbourg Core Center Bioinformatics
See the [http://dbgs.igbmc.fr/dbgs/Instruct Instruct Strasbourg Core Center WebSite]
d27737356e3e2ed8f713a416d2b1bf31d9521e35
Café des sciences
0
1322
2803
2426
2010-12-26T17:29:47Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
8e3ec4cda30e8aed3752220b9cb9afb20be13bb4
2821
2803
2011-08-17T08:03:08Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis plus de 7 ans.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
e4a3e3aa1f730efb6500953c62a2bddfd712f4a6
Gscope Procedures
0
1418
2806
2693
2011-02-23T15:10:29Z
Poidevin
11
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromFromPfam PF09088 GOacc,a.source_db_id]
</source>
7f1a8e1ea419328dccd9f2ecf98d4ebf96581cea
2807
2806
2011-02-23T15:11:34Z
Poidevin
11
/* proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar} */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
06017cc576bf61ca9434391acdda4109388d41a7
2810
2807
2011-04-06T12:17:26Z
Ripp
1
/* proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar} */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene itsGOs} {gene itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
57259efc5df7d7f7ce577fde8d9ba4e7b90c8798
2811
2810
2011-04-06T12:19:43Z
Ripp
1
/* proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}} */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
a5e5d9f2a18b22feaab76e866e149ba84654186f
BIRDQL
0
1395
2808
2570
2011-03-31T08:45:40Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
bf3de38fafd1a67e5e25a8b40ed8cc8c7fbb1b91
2829
2808
2011-12-12T14:09:53Z
Nguyen
15
/* BIRDQL Grammar */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': rmining in EVI Genoret Database
ID * DB EVImm
WH text CONTAINS "retina"
FD GET_COUNT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM CSV
//
ID * DB EVImm
WH text CONTAINS "retina"
LM 10
FD NOM,VALIDEPROT
FM FLAT
//
ID * DB EVImm
WH text CONTAINS "retina" & "chr6:127091327-127116667"
LM 10
FM XML
'''Example 8''': running SQL Native (authorized user)
ID * DB STRING
WH SQLNATIVE select * from items.proteins
Limit 100
FM CSV
'''Example 9''': SAGE Data (or MYGEO [http://bird.u-strasbg.fr:8080/bird/temp/mygeoschema.pdf]) (authorized user)
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC'
LM 500
FM CSV
==> results
GSM1|GTGAAACCCC|63
GSM2|GTGAAACCCC|76
GSM571|GTGAAACCCC|13
GSM572|GTGAAACCCC|395
GSM573|GTGAAACCCC|359
GSM574|GTGAAACCCC|286
GSM668|GTGAAACCCC|132
GSM669|GTGAAACCCC|129
GSM670|GTGAAACCCC|112
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
//
ID * DB MYGEO
WH SQLNATIVE select sample_id,tag,count from MYGEO.entry_sage where tag='GTGAAACCCC' and count between 1 and 3
LM 1000
FM CSV
'''Example 10''': Association rules (authorized user)
ID * DB protein_interaction
WH PATTERN AssociationPattern(Right(protA,ProtB,ProtC),Left(ProtK),sup=30,conf=90))
FD ID,Rules
FM FLAT
'''Example 11''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
ea137bd8a5935fa234b526d35e021ad0a340632a
2830
2829
2011-12-12T14:48:57Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
'''Example 9''': DBSNP
'''Example 9.1''': get DBSNP with XML format
ID 268 DB DBSNP
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example 9.3''': find snp by position and reference sequence (GRCh37.p2)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i")
FM FLAT
//
[[Category:Bird_project]]
79200fba972f641e289505505cf8c29101efcb1e
BIRD Data Access Protocol
0
1396
2809
2575
2011-03-31T11:55:19Z
Nguyen
15
/* Data Browsing at Décrypthon Data Center */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Browsing at Décrypthon Database federation===
Database content can be browsed from Bird Website [http://decrypthon.u-strasbg.fr/birdweb/] (beta version)
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
47791db2db6620afddc3ebccd041522f044ee0da
2827
2809
2011-12-12T14:04:31Z
Nguyen
15
/* Data Browsing at Décrypthon Database federation */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: [http://decrypthon.u-strasbg.fr/birdweb/]
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
e3def7bcbe175ea51e74f807ef6f308eb8d68bb6
2828
2827
2011-12-12T14:05:04Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql'</source>
# <source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://bird.u-strasbg.fr:8080/bird/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: in construction
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
8cb104c77b82a35fdbd838a50b3bccf2a2d2368d
Main Page
0
1279
2812
2722
2011-04-26T10:45:10Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://alnitak.u-strasbg.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
18c107d02a60a2122fad68f7ee4fe0086889739a
2817
2812
2011-05-24T14:56:35Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[Kilida et Alnitak]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
0357461d94a51af7685f7b0a59b3a61f436c6080
Quel outil utilise quel outil
0
1432
2813
2011-04-26T10:45:23Z
Ripp
1
New page: * Gscope uses PipeAlign requires BIRD * PipeAlign requires Blast uses Ballast requires DbClustal uses Rascal uses Leon requires Cluspack requires Macsims * Macsims requires BIRD * Blast re...
wikitext
text/x-wiki
* Gscope
uses PipeAlign
requires BIRD
* PipeAlign
requires Blast
uses Ballast
requires DbClustal
uses Rascal
uses Leon
requires Cluspack
requires Macsims
* Macsims
requires BIRD
* Blast
requires BlastDatabases
requires ballast
* DbClustal
requires BIRD
uses Cluspack
*Cluspack
require R-library
{| class="wikitable" style="text-align:center; width:80%;"
|+ Quel outil utilise quel outil
|-
|
! scope=col | PipeAlign
! scope=col | Blast
! scope=col | Ballast
! scope=col | DbClustal
! scope=col | Rascal
! scope=col | Leon
! scope=col | Cluspack
! scope=col | Macsims
|-
! scope=row | PipeAlign
|
|requires
|if av
|requires
|if av
|if av
|requires
|requires
|-
! scope=row | Blast
|-
! scope=row |Ballast
|-
! scope=row | DbClustal
|
|
|
|
|-
! scope=row | Cluspack
|-
! scope=row | Macsims
|}
35afdf89f9b725c27389901d5990a2bb2fabf000
2814
2813
2011-04-26T12:13:54Z
Ripp
1
wikitext
text/x-wiki
* Gscope
uses PipeAlign,
requires BIRD
* PipeAlign
requires Blast,
uses Ballast,
requires DbClustal
uses Rascal,
uses Leon,
requires Cluspack,
requires Macsims
* Macsims
requires BIRD,
* Blast
requires BlastDatabases,
requires ballast,
* DbClustal
requires BIRD,
uses Cluspack
*Cluspack
require R-library
{| class="wikitable" style="text-align:center; width:80%;"
|+ Quel outil utilise quel outil
|-
|
! scope=col | PipeAlign
! scope=col | Blast
! scope=col | Ballast
! scope=col | DbClustal
! scope=col | Rascal
! scope=col | Leon
! scope=col | Cluspack
! scope=col | Macsims
|-
! scope=row | PipeAlign
|
|requires
|if av
|requires
|if av
|if av
|requires
|requires
|-
! scope=row | Blast
|-
! scope=row |Ballast
|-
! scope=row | DbClustal
|
|
|
|
|-
! scope=row | Cluspack
|-
! scope=row | Macsims
|}
531945499a33a97186d129addc3d8a3c77bda219
2815
2814
2011-04-26T12:14:11Z
Ripp
1
wikitext
text/x-wiki
* Gscope
uses PipeAlign,
requires BIRD
* PipeAlign
requires Blast,
uses Ballast,
requires DbClustal,
uses Rascal,
uses Leon,
requires Cluspack,
requires Macsims
* Macsims
requires BIRD,
* Blast
requires BlastDatabases,
requires ballast,
* DbClustal
requires BIRD,
uses Cluspack
*Cluspack
require R-library
{| class="wikitable" style="text-align:center; width:80%;"
|+ Quel outil utilise quel outil
|-
|
! scope=col | PipeAlign
! scope=col | Blast
! scope=col | Ballast
! scope=col | DbClustal
! scope=col | Rascal
! scope=col | Leon
! scope=col | Cluspack
! scope=col | Macsims
|-
! scope=row | PipeAlign
|
|requires
|if av
|requires
|if av
|if av
|requires
|requires
|-
! scope=row | Blast
|-
! scope=row |Ballast
|-
! scope=row | DbClustal
|
|
|
|
|-
! scope=row | Cluspack
|-
! scope=row | Macsims
|}
1eece9365bb5c3fcefd320a6664b03634a15856b
PipeAlign
0
1433
2816
2011-04-27T14:03:08Z
Ripp
1
New page: The PipeAlign is a pipe of programs allowing to create a Macsims starting with a protein sequence. it runs following programs * Blast * Ballast * DbClustal * Rascal * Leon * Cluspack * ...
wikitext
text/x-wiki
The PipeAlign is a pipe of programs allowing to create a Macsims starting with a protein sequence.
it runs following programs
* Blast
* Ballast
* DbClustal
* Rascal
* Leon
* Cluspack
* Macsims
b7b643537b4cccaeef7046fd9516e7be3eb9f644
R
0
1320
2818
2770
2011-06-01T12:22:49Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs taper "R" , pour quitter R tappez : q() .
En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec :
/biolo/R/R_star/R-2.13.0/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >200 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
20151bebc7a125ab43e3dd07eb856255f568e09d
2819
2818
2011-06-01T12:23:41Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour star 3-8 et starv1-4 ainsi que Alnitak (WR jul 10).<br>
Pour lancer R sur les serveurs tapez "R" , pour quitter R tappez : q() .
En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec :
/biolo/R/R_star/R-2.13.0/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
30720c00c24a08ce9ddf7bde78d40df183e842ca
2820
2819
2011-06-01T12:25:18Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
La version version 2.13.0 du logiciel R (pour calculer des statistiques) est installé pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR jun 11).<br>
Pour lancer R sur les serveurs tapez "R" , pour quitter R tappez : q() .
En raison des différentes systèmes/versions Linux on commence une installation parallele, ceci facilitera aussi le maintien des anciennes versions. La version Fedora est la version par defaut et pour acceder la version Redhat il faudra demarrer avec :
/biolo/R/R_star/R-2.13.0/bin/R
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
1f3e23ea6638a9c1303b6986119ab8b52fd594b2
2822
2820
2011-11-14T13:16:21Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R/R_star/ et /biolo/R/R_surf/ .<br>
Pour lancer la version la '''plus récente de R''' sur les serveurs tapez :
sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star'''
sur les Fedora (surf) : '''R_surf'''
D'ailleurs des anciennes versions sont/restent disponibles :
sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star'''
sur les Fedora (surf) : '''R-2.13.1_surf'''
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
fdae614631e0007b8adabeef13e68fe3809876c8
2823
2822
2011-11-14T13:17:25Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R/R_star/ et /biolo/R/R_surf/ .<br>
Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br>
sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star''' <br>
sur les Fedora (surf) : '''R_surf'''
D'ailleurs des anciennes versions sont/restent disponibles : <br>
sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star'''<br>
sur les Fedora (surf) : '''R-2.13.1_surf'''
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
a94f82deb91ca71532e871d797a8af6c0a31e3dd
2824
2823
2011-11-14T13:18:23Z
Wraff
5
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br>
Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br>
sur les RedHat (star (6-8), starv (2-4), niko) : '''R_star''' <br>
sur les Fedora (surf) : '''R_surf'''
D'ailleurs des anciennes versions sont/restent disponibles : <br>
sur les RedHat (star (6-8), starv (2-4), niko) : '''R-2.13.2_star'''<br>
sur les Fedora (surf) : '''R-2.13.1_surf'''
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
c5a26341386232492746dc3da57eba6c49e646ec
BIRD
0
1313
2825
2747
2011-12-08T09:50:35Z
Nguyen
15
wikitext
text/x-wiki
BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center [http://decrypthon.u-strasbg.fr/birdweb/] [http://decrypthon-1.ens-lyon.fr:8080/birdweb] in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press.
All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN
8. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653265
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
d01ec4272d9c937ba90037ab8311faadd8c8833b
2826
2825
2011-12-12T14:02:28Z
Nguyen
15
/* BIRD System Overview */
wikitext
text/x-wiki
BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===Scientific Context===
Since 2000, thanks to the availability of the human genome and the rapid progress of biotechnologies and information technologies, numerous large biomedical datasets have been generated. As a consequence, modern biomedical information corresponds to a high volume of heterogeneous data that is increasing exponentially (Statistics NCBI) and perhaps more importantly, that covers very different data types, including patient data (from phenotypic, environmental or behavioral origins), gene data (including genome environment, gene expression status, enzymatic activity, gene product modification…) and the processes, protocols or treatments used to generate the information. In this context, systemic approaches are now being developed to analyze and compare this huge amount of information, in order to identify genes and to predict their functions in the cascade of events and networks involved for example, in the emergence of a disease. This requires the development of dynamic and powerful systems to store, assemble, integrate and process very large datasets from different sources. Recently, the Decrypthon initiative (Decrypthon) has been instigated (resulting from a collaboration between AFM/CNRS/IBM) firstly to develop a computing grid that connects hundreds of processors installed in various data-processing centres at French universities and secondly, to facilitate access to the data for the scientific biological community. In the framework of the Decrypthon initiative, several biomedical projects are in progress requiring on the one hand, a large computational capacity and on the other hand, the deployment in the grid environment of a data integration system able to handle automatically large volumes of heterogeneous data and to quickly process complex queries and versioning management.
===BIRD System Overview===
The BIRD System (Nguyen et al, CORIA 2008, Hermes Edition) was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
==[[BIRD Data Access Protocol]]s==
Several protocols are available see more [[BIRD Data Access Protocol]]
==BIRD KDD-Knowledge Discovery ==
BIRD Databases are compatible with DB2 Miner Intelligent
===DB2 Intelligent Miner (API)===
Data flow of the mining procedure (FindDeviations ex.)
[[Image:kdd_model.jpg]]
Finding deviations
Finding groups with similar characteristics (ClusterTable procedure)
You can find groups with similar characteristics using the ClusterTable procedure.
When to do it:
The database might contain patient data including demographic data, for example: v Gender v Age v
Profession v Family status The information might also include the income or the socio-demographic group of the customer
Finding relationships (FindRules procedure) You can find relationships in your data using the FindRules procedure.
Predicting future behavior (PredictColumn procedure)
In the tables or views of your database (Transciptomic or clinical Data), there might
be one column that you are particularly interested in. In the clinical data, you can find
relations between symptoms and diseases. With this information, you can predict the potential diseases of new patients
Finding most important fields (FindMostImpFields procedure)
You can find the most important fields using the FindMostImpFields procedure.
Example in BIRD-QL
[[Image:deviation.jpg]]
==[[MAP Semantic]]==
[[Image:Carte.jpg]]
The [[BIRD]] data warehouse will be equipped with various tools aimed at visualizing in a semantic manner the large volume of data it contains. Typically, clustering tools or self-organizing maps can be produced to visualize “land maps” representing the distribution of genes and their various annotations in the warehouse (protein families, organism, motif composition, 3D structure, genetic disease, etc.). This visualisation will be exploited to generate semantic networks that will contribute to the construction of the semantic framework of the project. In particular it should be helpful for guiding the subsequent relational data mining step.
This project (image above) is under development at IGBMC (Nicolas Wicker & Hoan Nguyen , Jeremy Trouslard, Julien Cadet...)
==[[Decrypthon Data Center]]==
===Overview===
[[Image:ddc_idea.jpg]]
The BIRD System represents the core of the Décrypthon Data Center.
Sharing of large scale biological data for applications (Macsims, MS2PH, Magos, Ordalie..)
Running on the Décrypthon Grid.
Management of generated data (results) on the Grid
Sharing of data and services for the scientific community
==MACSIMS uses the BIRDQL engine==
MACSIMS:Multiple Alignment of Complete Sequences Information Management System (Thompson et al, 2006). MACSIMS provides a unique environment for the analysis of all the information related to a given protein family, facilitating knowledge extraction and the presentation of the most pertinent information to the biologist.
Macsims uses a direct connection to the Bird database
==GPS uses the BIRDQL engine==
http://gps.nucleic.fr
==Gscope utilise BIRD==
Gscope can now establish a direct connection with the Bird system
* proc '''BirdFromQueryText''' {Texte {OutFile ""} {BirdUrl ""}}
* proc '''BirdFromQueryFile''' {Fichier {OutFile ""} {BirdUrl ""}}
In addition, BIRD can integrate information files from a Gscope project. The user can then query the files directly either by http or by Gscope, or even better, using the command '''BirdGscopeSearch'''
==[[BIRD Development]]==
see more [[BIRD Development]]
==[[BIRD KDE or ILBLab]]==
ILPLab is an inductive logic programming (http://www.doc.ic.ac.uk/~shm/ilp.html) laboratory [[ILPLab]]
==Publications==
1. Nguyen H., Berthommier G., Friedrich A., Poidevin L. ,Ripp R. , Moulinier L. and Poch O. Introduction du nouveau centre de données biomédicales Décrypthon, CORIA 2008, Hermes Edition. See PDF, [http://asso-aria.org/coria/2008/151.pdf]
2. Nguyen N-H.*, Wicker N.*., Kieffer D, Poch O. (2010). “A new projection method for biological semantic map generation.” J. Biomedical Science and Engineering, 2010, 3, 13-19., [http://www.scirp.org/Journal/Abstract.aspx?paperID=1130&JournalID=30].
'*' These authors contributed equally to this work
3. Friedrich A.*, Garnier N.*, Gagnière N., Nguyen H., Albou LP., Biancalana V., Bettler E., Deléage G., Lecompte O., Muller J., Moras D., Mandel JL., Toursel T., Moulinier L., Poch O.
SM2PH-db[http://decrypthon.igbmc.fr/sm2ph/cgi-bin/home]: an interactive system for the integrated analysis of phenotypic consequences of missense mutations in proteins involved in human genetic diseases.
Hum Mutat. 2009 Nov 17. (PMID: 19921752)[http://www3.interscience.wiley.com/journal/122684513/abstract].
'*' These authors contributed equally to this work
4. Analyse de données transcriptomiques: Modélisation floue de profils d'expression différentielle et analyse fonctionnelle.
Benabderrahmane S., Devignes M.-D., Smaïl-Tabbone M., Poch O., Napoli A., Nguyen N.-H N., Raffelsberger W.
Actes du XXVIIième congrès Informatique des Organisations et Systèmes d'information et de décision - INFORSID 2009, France (2009) [inria-00394530 − version 1]
5. Nguyen H., Michel L., Motch C. (2006). « Building an Astronomi-cal Database with Saada”, Astronomical Data Analysis Software and Systems XV, Madrid, Spain, Astronomical Society of the Pacific, ASP Conference Series, vol. 351.
6. Discovering knowledge hidden in mutation data using Inductive Logic Programming, in preparing for publication...
(Tien-Dao Luu, Ngoc-Hoan Nguyen, Anne Friedrich, Jean Muller, Luc Moulinier and Olivier Poch)
7. N. BARD , R. BOLZE, E. CARON, F. DESPREZ. M. HEYMANN, A. FRIEDRICH, L. MOULINIER, N.H. NGUYEN, O. POCH, T. TOURSEL. "Décrypthon Grid Resources Dedicated to Neuromuscular Disorders" (2010). Studies in Health Technology and Informatics published by IOS Press.
All authors contributed equally to this work. Decrypthon Data Center BIRD System are developed by N.H. NGUYEN
8. "BIRDQL-A new Biological Query Language " is preparing for....
==Powerpoint Presentations of BIRD System & SM2PH& DDC ==
1. BIRD System presentation (Decrypthon Meeting,ENS-Lyon, 11 Mai 2007). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/DECRYPTHON_BIRD_IBM.ppt]
2. Semantic Map and BIRD System (poster,APBC, Pekin 09). See PDF, [http://bird.u-strasbg.fr:8080/bird/temp/SemanticMapPekin09.ppt]
3. BIRD System presnetation to IBM Watson Lab(Online demo, Strasbourg, Mar 2009). See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRDSystemDemo_IBM.ppt]
4. Decrypthon : From “omics” grid-computing facilities towards medical bioinformatics , See ppt, [http://bird.u-strasbg.fr:8080/bird/temp/BIRD_SM2PH_080409.ppt]
==Contact==
Nguyen Ngoc Hoan,PhD
IGBMC Strasbourg
1 rue Laurent Fries
BP 10142
67404 Illkirch CEDEX / France
Mail:[mailto:nguyen@igbmc.fr nguyen@igbmc.fr]
Tel: 0033 388653265
--[[User:Nguyen|Nguyen]] 15:07, 16 February 2008 (CET)---
==FAQ?==
[[Category:Bird_project]]
acdbb516c4007af2cf3f86fa3be84fa8fef900f1
Installation PHP
0
1347
2831
1746
2012-01-11T15:06:13Z
Ripp
1
wikitext
text/x-wiki
Installation PDO for PHP5 on Ubuntu
voir surtout [http://lbgi.igbmc.fr/lbgiki/Installation_Ubuntu Installation_Ubuntu sur lbgiki]
# installation php5-dev
# installation postgresql-server-dev-8.1
# find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function:
<pre>
if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then
AC_MSG_ERROR([
You've configured extension $1, which depends on extension $2,
but you've either not enabled $2, or have disabled it.
])
fi
</pre>
## command: pecl install pdo_pgsql
## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so
a4b8038534df8a01ec2efe5549f69831d0a0be94
2832
2831
2012-01-11T15:09:12Z
Ripp
1
wikitext
text/x-wiki
Je crois que que cette page obsolète (Raymond)
voir [http://lbgi.igbmc.fr/lbgiki/Installation_Ubuntu Installation_Ubuntu sur lbgiki]
==Obsolete==
#Installation PDO for PHP5 on Ubuntu
## installation php5-dev
## installation postgresql-server-dev-8.1
## find PHP_ADD_EXTENSION_DEP inside /usr/lib/php5/build/acinclude.m4 (or wherever yours is located) and REMOVE this snippet from that function:
<pre>
if test "x$is_it_shared" = "x" && test "x$3" != "xtrue"; then
AC_MSG_ERROR([
You've configured extension $1, which depends on extension $2,
but you've either not enabled $2, or have disabled it.
])
fi
</pre>
## command: pecl install pdo_pgsql
## In php.ini for cli and apache2: extension=pdo.so and extension=pdo_pgsql.so
1c7966daf687fe570fd0db0692359876b2196d68
Star
0
1346
2833
2256
2012-01-11T17:13:06Z
Ripp
1
wikitext
text/x-wiki
Les Stars étaient nos machines de calcul avant l'arrivée des [[Lames]]
Les StarV sont des lames sous RedHat
Surf et les Lame1 à Lame14 sont des lames 16 CPUs 24 GO mémoire sous Fedora
La suite est très aléatoire ...
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 , 4 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir quelques incompatibilités entre les RedHat, les Fedora et les Ubuntu
La suite est à verifier ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
655167ed4660242e4a98b3413bfd0e4ee6f45565
2834
2833
2012-01-11T17:15:42Z
Ripp
1
wikitext
text/x-wiki
Les Star
mais ...
* Les Stars étaient nos machines de calcul avant l'arrivée des [[Lames]]
* Les StarV sont des lames sous RedHat
* Surf et les Lame1 à Lame14 sont des lames 16 CPUs 24 GO mémoire sous Fedora
La suite est très aléatoire ...
==Systèmes d'exploitation==
* Star1 et Star2 sont surtout serveurs de disques et tournent sous Solaris
* Star 3 , 4 , 6 , 7 , 8 sont maintentant toutes sous Linux RedHat
==Disques==
* /home est monté sur toutes les machines. On y trouve toutes les ''home-directories''.
En fait il n'y a pas qu'un disque il existe /groupes/poch /groupe/ruff etc ... pour tous les groupes. Sur /home il n'y a que des liens vers ces disques.
Attention il vaut mieux utiliser /home/arthur et non pas /groupes/machin/arthur
* /usr/local est en fait /linux/local
Il est commun à toutes les machines linux.
Notons qu'il peut y avoir quelques incompatibilités entre les RedHat, les Fedora et les Ubuntu
La suite est à verifier ...
[[R]] tourne spécifiquement sur star5.
[[java]] 1.5 est installé sur star6.
c244890edc6784e8d3125c5155bc1bd56c626732
Kilida et Alnitak
0
1330
2835
1576
2012-01-11T17:18:45Z
Ripp
1
wikitext
text/x-wiki
[[Kilida]] et [[Alnitak]] sont nos deux serveurs que l'on bascule allègrement de l'un vers l'autre en faisant l'échange des numéros IP.
Il y a en fait deux machines physiques.
Alnitak est la machine serveur de bases de données visible de l'extérieur.
Kilida est le miroir.
Il y a aussi Eyear et Moby qui sont des bipro 12 coeurs avec 48 GO de mémoire
dfe21ac6120b82aa8dad161edda4abd8fa92a370
Main Page
0
1279
2836
2817
2012-01-11T17:20:46Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
387cddc9d87c97d492db1c9149a7495f692cf634
2839
2836
2012-01-17T08:50:14Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur [[http://lbgi.igbmc.fr/wikili wikili]] le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
3a59eb9560168fff95ac1033efcd6667663478ce
2840
2839
2012-01-17T08:51:10Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI | LBGI (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
4d8ad6cfd7ba002666d84b74c0a6e7417d20d3ab
2841
2840
2012-01-17T08:52:19Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] (Laboratoire de BioInformatique et Génomique Intégratives)]]
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
4fa7a4a01e2003874bcc37de53d19018a5a74ef0
2842
2841
2012-01-17T08:52:36Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
abe3a965ca6bdede4963e783ef6a76fd10591044
2843
2842
2012-01-17T08:52:53Z
Ripp
1
wikitext
text/x-wiki
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Et n'oubliez pas le '''wiki top secret du LBGI''' [http://lbgi.igbmc.fr/lbgiki LBGIki] .
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
329388cd7094a415d6ceec690412e836fa677447
2844
2843
2012-01-17T08:54:30Z
Ripp
1
wikitext
text/x-wiki
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir aussi '''wiki privé''' [http://lbgi.igbmc.fr/lbgiki LBGIki] (accès resteint aux membres du laboratoire).
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
18b8f706cb99a04c19b16f57f561ff63ed23537d
2845
2844
2012-01-17T08:55:49Z
Ripp
1
wikitext
text/x-wiki
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur Wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir aussi [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
cd35e44575b90d353a230ba0caca6669eb70c4e6
2846
2845
2012-01-17T08:56:40Z
Ripp
1
wikitext
text/x-wiki
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
36af664084380e0d84b19a4f84733d7d75a02121
2855
2846
2012-01-23T18:41:21Z
Ripp
1
/* Thématiques et Projets */
wikitext
text/x-wiki
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
c4e3a89c21567296bfafcef4368e999b6daf97e4
2858
2855
2012-03-12T09:32:42Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est maintenant hébergée par kilida 2012/03/12. Raymond )
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
52b85dfcc0c31af90d0ddac9f32d508e5d72be2e
2859
2858
2012-03-12T09:33:15Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ca46af1f2c7b73b6c441a8769b2c675711247c9e
RetinoBase
0
1344
2837
1743
2012-01-17T08:24:55Z
Ripp
1
wikitext
text/x-wiki
go to the [http://alnitak.u-strasbg.fr/RetinoBase RetinoBase website] mail to [mailto:raymond.ripp@igbmc.fr raymond.ripp@igbmc.fr]
==What is RetinoBase==
RetinoBase is a web site and a relational database currently combining 27 different sets of microarray experiments in vision research preformed in 4 different organisms.
==RetinoBase can be accessed through a Fed instance==
[[Fed]] for RetinBase is now available. It allows the management uf users and datafiles with access rights
==Datasets in RetinoBase==
Retinobase stores the expression profiles of genes from a microarray experiment.
The database contains a total of 20 publicly available experiments, GEO data GSE 1816, 4756, 1835, 3791, 2868 as well as 7 additional experiments that are not publicly available which can be accessed in the near future, are performed under different conditions such as knockout models, treatments and time series experiments performed on different organisms such as mice, rats, zebra fish and humans.
Out of these 20 experiments, 2 experiments (experiment 8 and 9) have partial data at the level of fold change due to unavailability of raw data (.CEL) or signal intensity data. Data was downloaded via FTP from Gene Expression Omnibus (GEO) and after preprocessing has been uploaded to RetinoBase using SQL scripts via pgAdminIII.
==Data pre-processing==
Raw data has been obtained in two different formats either as .CEL files or at the level of signal intensities. Data obtained at the level of .CEL files have been analysed with three different normalization softwares - RMA, dChip and MAS5 using R statistical package (http://www.r-project.org) and Bioconductor. R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R. The signal intensities thus obtained were integrated into Retinobase.
The fold-change in gene expression was calculated as the ratio between the signal intensities of a given gene in the treated (or knockout) with respect to the control. In the case of experiments performed in replicates, signal intensities were averaged before calculation of the ratios and finally incorporated into Retinobase.
All the experiments in Retinobase are clustered using K-means method from both Functional And Statistical Analysis of Biological Data (FASABI) software developed in-house and TM4, a free, open-source system for microarray data management and analysis as well as mixture model method through FASABI. K-means method in FASABI uses density of points clustering and that of in TMEV uses dot product to determine the distance between gene vectors.
==User Manual==
* User manual .doc file
* [[RetinoBase Website]]
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
Retinobase uses open-source tools.
==External Links==
* [http://www-genoret.u-strasbg.fr/genoret Genoret Database]
* [http://www-genoret.u-strasbg.fr/GenoretGenes GenoretGenes]
bb12255799398ab0c7baa3da5d02b2ef77b37f84
GxDb
0
1426
2838
2732
2012-01-17T08:48:13Z
Ripp
1
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb]
e1fa084984fdd634dbd5dd71711fb679c12ae0a5
2849
2838
2012-01-17T15:14:41Z
Ripp
1
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb]
GxDb Gene eXpression DataBase developped by Laetitia Poidevin, Wolfgang Raffelsberge, Raymond Ripp and Olivier Poch
See the [http://gx.igbmc.fr GxDb website]
==Aim of GxDb==
During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene.
==Datasets in GxDb==
* PeripheryMacula Periphery versus Macula from the retina of two patients 55 and 82 years old
* congRD1 wt vs rd1 at different temporal points
* A764Nxnl1 different genotypes: wt, nxnl1+/- and nxnl1-/- exposed 250 lux can be compared to A777Nxnl2 and A908Nxnl1Lux experiments
* A777Nxnl2 different genotypes: wt and nxnl2-/- exposed to 250 lux can be compared to A764Nxnl1 and A908Nxnl1Lux experiments
* A908Nxnl1Lux different genotypes: wt and nxnl1-/- exposed to 250, 2500 and 5000 lux can be compared to A764Nxnl1 and A777Nxnl2 experiments MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice. Keywords: multiple tissues
* HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues SamplePrefix=HGA_=
* ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype)
* HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays.
* Calvano2005 LPS reaction in human blood, study by Calvano et al Nature 2005
* HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst.
* Blood_Xigris1 Transcription profiles for blood samples from 20 patients with septic shock symptoms, before (T0) and after treatment (T1, with or without drug Xigris) (data private) and normal individuals (GEO) as reference
==Data processing==
Data obtained at the level of .CEL files are analysed with 6 different normalization softwares :
* RMA
* gcRMA
* dChip
* MAS5
* VSN
* Plier
using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor.
R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R.
All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package
* km_dpc K-means Density of Point Clustering
* mm_aic Mixure Model Akaike’s Information Criterion
* mm_bic Mixure Model Bayesian Information Criterion
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
GxDb uses open-source tools.
d7e6a656d02a2b12ae5bcd536b0b9759914ba8e6
2850
2849
2012-01-17T17:58:53Z
Ripp
1
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb]
See the [http://gx.igbmc.fr GxDb website]
==Aim of GxDb==
During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene.
==Public Datasets in GxDb==
* HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues SamplePrefix=HGA_=
* ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype)
* HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays.
* HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst.
==Data processing==
Data obtained at the level of .CEL files are analysed with 6 different normalization softwares :
* RMA
* gcRMA
* dChip
* MAS5
* VSN
* Plier
using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor.
R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R.
All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package
* km_dpc K-means Density of Point Clustering
* mm_aic Mixure Model Akaike’s Information Criterion
* mm_bic Mixure Model Bayesian Information Criterion
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
GxDb uses open-source tools.
e468ba314deb4b4ebcccdc1bbceef1b37746a344
2851
2850
2012-01-17T18:01:18Z
Ripp
1
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
voir le wiki privé [http://lbgi.igbmc.fr/lbgiki/GxDb http://lbgi.igbmc.fr/lbgiki/GxDb]
See the [http://gx.igbmc.fr GxDb website]
==Aim of GxDb==
During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene.
==Public Datasets in GxDb==
* MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice.
* HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues.
* ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype)
* HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays.
* HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst.
==Data processing==
Data obtained at the level of .CEL files are analysed with 6 different normalization softwares :
* RMA
* gcRMA
* dChip
* MAS5
* VSN
* Plier
using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor.
R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R.
All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package
* km_dpc K-means Density of Point Clustering
* mm_aic Mixure Model Akaike’s Information Criterion
* mm_bic Mixure Model Bayesian Information Criterion
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
GxDb uses open-source tools.
ed3c75ff567fc88d4a95df15c8b0c7a36bf70d8f
Quel outil utilise quel outil
0
1432
2847
2815
2012-01-17T09:08:31Z
Ripp
1
wikitext
text/x-wiki
voir http://dbgs.igbmc.fr/dbgs/phpRR/lance.php?action=FedFun::qo
Quel outil utilise quels outils parmi :
* Gscope
* PipeAlign
* Blast
* Ballast
* ClustalW
* Cluspack
* Macsims
* KoAnno
* GxDb
* SM2PH
* BlastDatabases
* OrthoInspector
* BIRD
* StringInteractome
* ILP
* KbmPortal
* SqlDatabase
* DB2DataWarehouse
* TomcatServer
* AlexSys
* R-library
* Modeller
* DSSP
* I-Mutant
* Delphi
* SIFT
* WebSpherePortal
* BioJava
* Weka
47ff3c9862d1ce3ecd15cf0e7e62f4ee0ec5201e
2848
2847
2012-01-17T09:09:09Z
Ripp
1
wikitext
text/x-wiki
voir http://dbgs.igbmc.fr/dbgs/phpRR/lance.php?action=FedFun::qo
Quel outil utilise quels outils parmi :
* Gscope
* PipeAlign
* Blast
* Ballast
* ClustalW
* Cluspack
* Macsims
* KoAnno
* GxDb
* SM2PH
* BlastDatabases
* OrthoInspector
* BIRD
* StringInteractome
* ILP
* KbmPortal
* SqlDatabase
* DB2DataWarehouse
* TomcatServer
* AlexSys
* R-library
* Modeller
* DSSP
* I-Mutant
* Delphi
* SIFT
* WebSpherePortal
* BioJava
* Weka
28b1b4d07dda3658bdc2a5e9e09538b272adb75e
ImAnno
0
1434
2852
2012-01-23T18:31:13Z
Ripp
1
New page: ImAnno is the Image Annotation Tool ==Definition== ''ImAnno'' is a web based annotation tool. It allows the annotation of all kind of images, texts, "concepts" through a web interface. <...
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database]] and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreateFiles$organ
5a3343626ae99b4c39ccc198b42bbfed523eabf2
2857
2852
2012-02-01T15:05:39Z
Ripp
1
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreateFiles$organ
7750936da7b41c4a1169d2df5a0d3be5723893c4
ImAnno Standard Operation Procedure
0
1435
2853
2012-01-23T18:36:33Z
Ripp
1
New page: ImAnno Standard Operation Procedure * [[GenePaint Gene Annotation with ImAnno]] * See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rappo...
wikitext
text/x-wiki
ImAnno Standard Operation Procedure
* [[GenePaint Gene Annotation with ImAnno]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
27d68d566a02940a220d51836eecf736f0cc8135
GenePaint Gene Annotation with ImAnno
0
1436
2854
2012-01-23T18:37:10Z
Ripp
1
New page: The website [http://genepaint.org/ GenePaint] provides thousands of the In Situ Hybridization images. These images correspond to the 24 sagittal sections at embryonic day 14.5. The goal...
wikitext
text/x-wiki
The website [http://genepaint.org/ GenePaint] provides thousands of the In Situ Hybridization images.
These images correspond to the 24 sagittal sections at embryonic day 14.5.
The goal of GenePaint Gene Annotation with ImAnno is to annotate sets of genes provided by GenePaint.
Three projects were launched : eye, teeth and ear
==Eye==
The tissue types which have been annotated are :
# Neural Retina Inner neuroblastic layer
# Neural Retina Outer neuroblastic layer
# Lens Central cells
# Lens Anterior epithelium
# Corneal Mesothelium
# Corneal Epithelium
# Epithelia Palpebral folds
# Epithelia Conjunctival/perioptic epithelium
# Mesenchyme Eyelid
# Mesenchyme Scleral
# Mesenchyme Condensed perioptic mes. including ocular muscles
# Mesenchyme Loose perioptic mes. including orbital bone
# Mesenchyme Retrolenticular
# Mesenchyme Hyaloid plexi
# Non-ocular head tissues Surface epithelium
# Non-ocular head tissues Mesenchyme
# Non-ocular head tissues Muscles
# Non-ocular head tissues Bone
# Non-ocular head tissues Vasculatur
# Other body regions Central nervous system
# Other body regions Other body regions
Foreach tissue type you have to select between
* NA
* Negative
* Weak
* Strong
and you can add zero or more keyword
* patchy
* spotted
* regionalized
* dev nerves
==Teeth==
# General expression pattern
# Oral epithelium
# Molar Gubernaculum
# Molar Epithelial Compartment Enamel organ
# Molar Epithelial Compartment Enamel organ Outer enamel epithelium
# Molar Epithelial Compartment Enamel organ Stellate reticulum
# Molar Epithelial Compartment Enamel organ Inner enamel epithelium Future cusp area
# Molar Epithelial Compartment Enamel organ Inner enamel epithelium Epithelial loop area
# Molar Epithelial Compartment Enamel organ Enamel knot
# Molar Mesenchymal compartment Dental sac
# Molar Mesenchymal compartment Dental Papilla
# Molar Mesenchymal compartment Dental Papilla Core
# Molar Mesenchymal compartment Dental Papilla Future cusp area
# Molar Mesenchymal compartment Dental Papilla Cervical area
# Molar Mesenchymal compartment Alveolar bone
# Incisor Gubernaculum
# Incisor Epithelial Compartment Enamel organ
# Incisor Epithelial Compartment Enamel organ Outer enamel epithelium
# Incisor Epithelial Compartment Enamel organ Stellate reticulum
# Incisor Epithelial Compartment Enamel organ Stratum Intermedium
# Incisor Epithelial Compartment Enamel organ Inner enamel epithelium Anterior area
# Incisor Epithelial Compartment Enamel organ Inner enamel epithelium Epithelial loop area
# Incisor Epithelial Compartment Enamel organ Enamel knot
# Incisor Mesenchymal compartment Dental sac
# Incisor Mesenchymal compartment Dental Papilla
# Incisor Mesenchymal compartment Dental Papilla Core
# Incisor Mesenchymal compartment Dental Papilla Anterior area
# Incisor Mesenchymal compartment Dental Papilla Cervical area
# Incisor Mesenchymal compartment Alveolar bone
# Non-dental head tissues Meckel cartilage
# Non-dental head tissues Tongue
# Non-dental head tissues Palate Epithelium
# Non-dental head tissues Palate Medial epithelial seam
# Non-dental head tissues Palate Mesenchyme
# Non-dental head tissues Salivary glands
# Non-dental head tissues Nasal
# Other body regions
# EurExpress
==Ear (including other tissues from the sensory system)==
# External acoustic meatus
# Middle ear ossicles
# Middle ear tympanic membrane
# Middle ear mesenchyme
# Otic capsule
# Inner ear mesenchyme
# Stato-acoustic ganglion
# Inner spiral sulcus
# Kolliker
# Stria vascularis
# Outer spiral sulcus
# Sacculus sensory region
# Sacculus other cells
# Utriculus sensory region
# Utriculus other cells
# Crista sensory region
# Crista other cells
# Semi-circular canals
# Endolymphatic duct and sac
# Choroide plexus 4th ventricule
# Hindbrain
# Sensory retina
# Olfactory organ
# Cartilage primordium of ribs
# Follicles of vibrissae
1402d3dd84fec899e89ebaa728824a0c61516b0a
Kilida
0
1283
2856
1577
2012-01-23T18:45:07Z
Ripp
1
wikitext
text/x-wiki
'''Kilida''' veut dire '''oeil''' en grec moderne.
==Kilida serveur==
Kilida était destiné à devenir le serveur pour [http://www-genoret.u-strasbg.fr/genoret EVI-Genoret].
En attendant il sert de miroir et de machine test car c'est [[Alnitak]] le vrai serveur... voir [[Kilida et Alnitak]]
Kilida tourne sous Ubuntu
Voir [[Installation de Ubuntu]]
08644923845780080e5cd7ba0b75bbe8370f0f7b
String
0
1421
2860
2805
2012-04-05T09:33:30Z
Wraff
5
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
(for example:)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
54812013ce56e0d4dea577891ee51c9115ac3098
2861
2860
2012-04-05T09:34:35Z
Wraff
5
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
(for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
0c368d0150b044a4dfc9501ab9328c8a829b4900
2862
2861
2012-04-05T09:35:28Z
Wraff
5
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
ae9a283a45f21cbfa5f676804cd2ecdc95afafc1
2876
2862
2012-12-27T10:29:10Z
Ripp
1
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
caa6f702404a93f319d7f20e681a2d0a9904799d
R
0
1320
2863
2824
2012-04-12T12:20:12Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x et 2.14.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 14 nov 11).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br>
Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br>
sur les RedHat (star6, niko) : '''R_star''' <br>
sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R'''
D'ailleurs des versions particuliers sont/restent disponibles : <br>
sur les RedHat (star6, niko) :
'''R-2.13.2_star''' , '''R-2.14.0_star'''<br>
sur les Fedora et Ubuntu (surf, alnitak) :
'''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br>
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
d77bb453b887eccff494f8b9f7059bf1503d90c3
2864
2863
2012-04-12T12:21:24Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x, R-2.14.x et 2.15.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 12 apr 12).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br>
Pour lancer la version la '''plus récente de R''' sur les serveurs tapez : <br>
sur les RedHat (star6, niko) : '''R_star''' <br>
sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R'''
D'ailleurs des versions particuliers sont/restent disponibles : <br>
sur les RedHat (star6, niko) :
'''R-2.13.2_star''' , '''R-2.14.0_star'''<br>
sur les Fedora et Ubuntu (surf, alnitak) :
'''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br>
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
c5822dc55c4fe0f07996432a6eba861ec35c1a1f
2865
2864
2012-04-12T12:22:36Z
Wraff
5
/* R sur Serveur */
wikitext
text/x-wiki
R c'est le petit nom du [http://www.r-project.org/ R-project] et c'est un logiciel/plateforme pour le calcul statistique avec nombreux extensions spécifiques.
=Comment le lancer?=
==R sur Serveur==
Les versions R-2.13.x, R-2.14.x et 2.15.0 du logiciel R (pour calculer des statistiques) sont installées pour surf, star (6-8), starv (2-4), niko ainsi que Alnitak (WR 12 apr 12).<br>
En raison des différentes systèmes/versions Linux il s'agit des installations indépendantes dans /biolo/R_star/ et /biolo/R_surf/ .<br>
Pour lancer la version la '''plus récente et stable de R''' sur les serveurs tapez : <br>
sur les RedHat (star6, niko) : '''R_star''' <br>
sur les Fedora et Ubuntu (surf, alnitak) : '''R_surf''' or '''R'''
D'ailleurs des versions particuliers sont/restent disponibles : <br>
sur les RedHat (star6, niko) :
'''R-2.13.2_star''' , '''R-2.14.0_star'''<br>
sur les Fedora et Ubuntu (surf, alnitak) :
'''R-2.13.1_surf''' , '''R-2.14.1_surf''' , '''R-2.15.0_surf'''<br>
Pour quitter R tappez : q() .
==R pour Windows==
On trouve la version la plus récente sur http://www.r-project.org/ <br>
<br>
=Librairies =
L’installation sur '''nos serveurs (star)''' est accompagnée d’une collection de >260 librairies/modules/packages provenant des collections comme "BioConductor" et "CRAN" (et autres).
Si vous avez besoin d'un module pas encore installé veuillez vous adresser à [[Wolfgang_Raffelsberger|Wolfgang]].<br>
[http://www.r-project.org/ CRAN] et [http://www.bioconductor.org/ Biocoductor] sont des collections principales pour des librairies en R. <br>
Bioconductor est spécialisé sur des thématiques liées à la biologie, notamment la transcriptomique, séquencage à haut débit et le CGH.
Sur notre serveur il y a aussi d'autres libraries installées, notamment [http://www.math.mcmaster.ca/peter/mix/mix.html mixdist] et [http://www.bioinf.jku.at/software/farms/farms.html farms]
==Librairies développées en collaboration avec le LBGI==
*[[Flush]] propose des methodes pour filtrer des données transcriptomiques (type Affymetrix)
*[[GxTools]] (en preparation)
*[[batchTCA]] (en preparation)
==Librairies utiles==
*[[rJava]] pour appeler du java depuis R
<br>
=Performing Statistics using R =
*[[t-test]]
=Liens=
*[http://www.r-project.org/ Le site originale du projet de R pour le calcul statistique]
*[http://www.sciviews.org/_rgui/wiki/doku.php?id=start Un wiki sur R]
*[http://www.biostat.envt.fr/wiki/ Un wiki sur R en français]
*[http://www.stat.auckland.ac.nz/~paul/ Un site pour faire des graphics utilisant R]
*[http://www.sciviews.org/Tinn-R/ Tinn-R] est un editeur pour R sous Windows
*[[JRI]] (Java R Interface, une bibliothèque JNI pour communiquer en Java avec R) sur ce Wiki
*[[GEO Affymetrix GPL]] : GEO GPL-platform identifiers for various Affymetrix Microarrays
*[[RReportGenerator]] : un GUI pour des applications de routine utilisant R
=Documentation et Tutorials=
*Les [[Bibliothèque interne#R | livres]] disponibles au laboratoire.
*[http://www.network-theory.co.uk/R/base/ le manuel de référence de R] par l'équipe de développement de R. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2)
*Collection of articles : http://cran.r-project.org/other-docs.html
*text en français : par Emmanuel Paradis http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf <br>
*or text by E Paradis in English : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
*Text by J Verzani http://www.math.csi.cuny.edu/Statistics/R/simpleR/
*R Reference Card by Tom Short (on www.Rpad.org) http://www.rpad.org/Rpad/R-refcard.pdf
*liks to pdfs, … http://www.biostat.wisc.edu/~kbroman/Rintro
=Mailing Lists=
* the official R-help mailing list is VERY active, you can also search the past messages in the archives by [http://tolstoy.newcastle.edu.au/R/ Robert King and U. Newcastle] and by [http://finzi.psych.upenn.edu/ Jonathan Baron] <br> Besides, there are several dedicated/specialized lists like the ones for Bioconductor or Deep sequencing.
* For messages specific to the installation (and updates) at the IGBMC please subscribe to the '''IGBMC-[[BioInfoClub]]'''
* There is also a [http://www.mnhn.fr/semin-r/ French User Group]
ca0e9a3470e02fe52693f62ab2e893f994bc25e0
BIRD Data Access Protocol
0
1396
2866
2828
2012-11-16T09:08:03Z
Nguyen
15
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get EST
http://bird.u-strasbg.fr:8080/bird/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 2: get Protein :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=uniprot&accession=Q23456
Example 3: get PDB :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS
Example 4: get Fasta :
http://bird.u-strasbg.fr:8080/bird/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: in construction
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
feda1c7d62a047d3b519a24228aa90bc592fc146
2867
2866
2012-11-16T09:27:52Z
Nguyen
15
/* Simple Services-Bank ID */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get EST
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: in construction
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
71b48887771081b74d68b3c85e74cd1f2b871144
BIRDQL
0
1395
2868
2830
2012-11-16T09:48:11Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2006).
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
'''Example 9''': DBSNP
'''Example 9.1''': get DBSNP with XML format
ID 268 DB DBSNP
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example 9.3''': find snp by position and reference sequence (GRCh37.p2)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i")
FM FLAT
//
[[Category:Bird_project]]
57e6c56688479f2b57ee065586d86ec5d0b5c890
2869
2868
2012-11-16T09:49:18Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
The heterogeneous data integrated in [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2005).
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
'''Example 9''': DBSNP
'''Example 9.1''': get DBSNP with XML format
ID 268 DB DBSNP
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example 9.3''': find snp by position and reference sequence (GRCh37.p2)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i")
FM FLAT
//
[[Category:Bird_project]]
b11235e5ed24f10558cd4b0cc882f2f014e9d7a1
2870
2869
2012-11-21T05:19:52Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in my PhD ( Astrophysics & Virtual Observatory ,2002-2005).
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
'''Example 9''': DBSNP
'''Example 9.1''': get DBSNP with XML format
ID 268 DB DBSNP
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example 9.3''': find snp by position and reference sequence (GRCh37.p2)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i")
FM FLAT
//
[[Category:Bird_project]]
1c58a7bdb17cb4a854986eee14a8acee8fe885d1
2871
2870
2012-11-21T05:26:59Z
Nguyen
15
/* BIRDQL in few words */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
'''Example 2''': FullText query with operator: & , not (TEXT=definition, organism scientific organism common, dbref,..)
ID * DB REFSEQ
WH TEXT Contains "Tyrosyl-tRNA synthetase" & "Homo sapiens"
LM 100
FM FASTA
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
'''Example 9''': DBSNP
'''Example 9.1''': get DBSNP with XML format
ID 268 DB DBSNP
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example 9.2''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example 9.3''': find snp by position and reference sequence (GRCh37.p2)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p2"] ' passing text as "i")
FM FLAT
//
[[Category:Bird_project]]
11240df4652cd737e8943dbe2bcd922ca55830c9
2872
2871
2012-11-21T15:26:52Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
e7b03c1ccdcfb14caad4372d4e24262fd2162b97
2873
2872
2012-11-21T15:27:20Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
5af84e8c04de89d1b7f46c73c6518ae2c4682e8b
2874
2873
2012-11-21T15:29:44Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Two other examples below also show how to use the BIRD-QL syntax.
'''Example 1''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
4b764589a7319932fd90fac57d2e43d760305ddc
ImAnno Search Tool
0
1437
2875
2012-11-26T09:23:42Z
Ripp
1
New page: ImAnno provides a set of tools to query the database. * Query by Genename * [[ImAnnoSieves]] * [[ImAnnoDoOnList]] * [[ImAnnoCluspack]]
wikitext
text/x-wiki
ImAnno provides a set of tools to query the database.
* Query by Genename
* [[ImAnnoSieves]]
* [[ImAnnoDoOnList]]
* [[ImAnnoCluspack]]
12eedcd544af4da5937a0f4289bf574b42caf253
SringInteractome
0
1438
2877
2012-12-27T10:33:00Z
Ripp
1
New page: StringInteractome est intégré dans Gscope. A partir d'une liste de gènes, StringINteractoime interroge [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly. ...
wikitext
text/x-wiki
StringInteractome est intégré dans Gscope.
A partir d'une liste de gènes, StringINteractoime interroge [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly.
Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait affiher les réseaux en interactif dans le navigateur
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
4d046f2cec89033f21f4c431c096a197644f6822
2878
2877
2012-12-27T10:34:31Z
Ripp
1
wikitext
text/x-wiki
StringInteractome est intégré dans Gscope.
A partir d'une liste de gènes, StringInteractoime interroge la base de données Postgresql [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly.
Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait afficher les réseaux en interactif dans le navigateur
==Utilisation en ligne de commande==
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
ebc3a13b31e2545069b104bd5262490de95c160e
2879
2878
2012-12-27T10:39:13Z
Ripp
1
wikitext
text/x-wiki
StringInteractome est intégré dans Gscope.
A partir d'une liste de gènes, StringInteractoime interroge la base de données Postgresql [[String]] et crée 3 réseaux d'interactions (WithAny, Sandwich et QueryOnly.
Il crée tous les fichiers nécessaires à Cytoscape et surtout en web à CytoscapeWeb qui sait afficher les réseaux en interactif dans le navigateur
==Utilisation en ligne de commande==
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
==PHP StringInteractome==
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
==Cytoscape==
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
d5406d558c5a96c7a9f8f40f73457dd0b1b0ba6a
GeneNames
0
1409
2880
2487
2013-02-05T09:27:06Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
064b00ba722f9588f4b3ccca538b75e73bb2833f
2881
2880
2013-02-05T09:45:23Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_Gn
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
b07392f3be506041cf8ae3ffceb554e0dcee4348
2882
2881
2013-02-05T09:45:58Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_Gn
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
eaa717f1e9e7d28088973120e22cedd49624f39c
GeneNames
0
1409
2883
2882
2013-02-05T09:47:42Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
c69555c190d39aa0a9545c60535b2b1fec6f3da9
2884
2883
2013-02-05T09:56:59Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf GeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
8a68a5c9da49f1f2ab7d50c1c98df7a24c57447d
2885
2884
2013-02-05T10:07:42Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
1138e17ea60690256b2c3b5f4768d77dfd888d0e
2886
2885
2013-02-05T10:33:35Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
**MouseFromHuman ListOf Header
**MouseFromHuman ListOf GeneName
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
**MouseFromHuman Pax6
**MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
**MouseFromHuman Pax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
62da33e3b68e73ae47bc38b9544b3448ed936d75
2887
2886
2013-02-05T10:35:19Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf Header
** MouseFromHuman ListOf GeneName
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
** MouseFromHuman Pax6 One_Genename (the most important)
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
75a66b7853d28c0684d396c3a7162a2a217b5fd4
2888
2887
2013-02-05T10:49:02Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf HumanHeader
** MouseFromHuman ListOf MouseHeader
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf Header)
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
8ff9b1ff3ae3758ef3b8c32cd5e25e32d745175a
2889
2888
2013-02-05T10:50:31Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf HumanHeader
** MouseFromHuman ListOf MouseHeader
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader)
*HumanFromMouse combines these programs
**FromHumanFromMouse ListOf Header
**FromHumanFromMouse ListOf GeneName
**FromHumanFromMouse Pax6
**FromHumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
**FromHumanFromMousePax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
7664a5d27f339cbf8c2aee3a70b1820c0e3ec007
2890
2889
2013-02-05T10:55:18Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf HumanHeader
** MouseFromHuman ListOf MouseHeader
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader)
*HumanFromMouse combines these programs
** HumanFromMouse ListOf HumanHeader
** HumanFromMouse ListOf MouseHeader
** HumanFromMouse Pax6
** HumanFromMouse Pax6 header (within MouseFromHuman ListOf Header)
** HumanFromMousePax6 One_Genename (the most important)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
47d66a16b63b2ec8e50e94308aaef18b155d513a
2891
2890
2013-02-05T13:01:25Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf HumanHeader
** MouseFromHuman ListOf MouseHeader
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader)
*HumanFromMouse combines these programs
** HumanFromMouse ListOf HumanHeader
** HumanFromMouse ListOf MouseHeader
** HumanFromMouse Pax6
** HumanFromMouse Pax6 header (within HumanFromMouse ListOf HumanHeader)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
94ba6345983e90c47270aa33da432bff2657654c
2892
2891
2013-02-06T10:01:50Z
Poidevin
11
wikitext
text/x-wiki
GeneNames are the most important link between genes ...
Gscope has now following functions to manipulate the gene names. See the test at below
* HGNC integrates a download from the [http://www.genenames.org/aboutHGNC.html HUGO Gene Nomenclature Committee]
** HGNC ListOf Header
** HGNC ListOf HGNC_ID
** HGNC ListOf GeneName
** HGNC ListOf Synonym
** HGNC ListOf SynoTxt
** HGNC Pax6
** HGNC Pax6 header (within HGNC ListOf Header)
* MGI integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the gene alias for the mouse
** MGI ListOf Header
** MGI ListOf MGIID
** MGI ListOf GeneName
** MGI Pax6 MGIID
** MGI MGI:97490 GeneName
** MGI Pax6 ListOfSyn
** MGI MGI:97490 ListOfSyn
** MGI Pax-6 Reference_MgiId
** MGi Pax-6 Reference_GeneName
** MGI Pax6
** MGI Pax6 header (within HGNC ListOf Header)
*MGIHGNC integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the ortholgy between Mouse and Human
** MGIHGNC ListOf Header
** MGIHGNC ListOf MGIID
** MGIHGNC ListOf HGNCID
** MGIHGNC ListOf MGIGeneName
** MGIHGNC ListOf HGNCGeneName
** MGIHGNC MGI:97490 HGNCID
** MGIHGNC HGNC:8620 MGIID
** MGIHGNC Pax6
** MGIHGNC Pax6 header (within MGIHGNC ListOf Header)
*MouseFromHuman combines these programs
** MouseFromHuman ListOf HumanHeader
** MouseFromHuman ListOf MouseHeader
** MouseFromHuman Pax6
** MouseFromHuman Pax6 header (within MouseFromHuman ListOf MouseHeader)
*HumanFromMouse combines these programs
** HumanFromMouse ListOf HumanHeader
** HumanFromMouse ListOf MouseHeader
** HumanFromMouse Pax6
** HumanFromMouse Pax6 header (within HumanFromMouse ListOf HumanHeader)
*Synonyms
**MouseSynonyms Pax6
**HumanSynonyms Pax6
*MGISW integrates a download from [http://www.informatics.jax.org/ Mouse Genome Informatics] concerning the link between MgiId, genename and the swissprot for the mouse
** MGISW ListOf Header
** MGISW ListOf MgiId
** MGISW ListOf GeneName
** MGISW MGI:1919200 LesSw
** MGISW MGI:1919200
** MGISW MGI:1919200 header (within MGISW ListOf Header)
** MGISW Nanog
** MGISW Nanog header (within MGISW ListOf Header)
==Test it==
* get all about RdCVF in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MGI&RdCVF Mouse] in the
[http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HGNC&RdCVF Human]
* get
**Starting with the Human gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&MouseFromHuman&RdCVF&GeneName Mouse]
**Starting with the Mouse gene name RdCVF find the ortholog in the [http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/GscopeServer?EVImm&HumanFromMouse&RdCVF&GeneName Human]
b0697fb06fcd94b37ee2d1ded3f621677de12df3
ImAnno
0
1434
2893
2857
2013-03-11T09:44:25Z
Ripp
1
/* What about the images */
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are dispalyed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreatetissueFiles$organ
77409b5bc72d6f61458d8365ff6a9e72e40788fa
Main Page
0
1279
2894
2859
2013-05-30T14:53:06Z
Ripp
1
/* Thématiques et Projets */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
fd433b69b4bfd9e4379292fe576ac76c3e2cfb72
2903
2894
2013-09-03T07:31:27Z
Julie
14
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
* ALLOT Alexis allot@unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NGUYEN Hoan nguyen@igbmc.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* WALTER Vincent v.walter@unistra.fr
* NEY Anne anne.ney@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
341499a2316ab54d70de6b46a8e64b2744a6eeef
2904
2903
2013-09-03T12:06:21Z
Julie
14
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
* ALLOT Alexis allot@unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* WALTER Vincent v.walter@unistra.fr
* NEY Anne anne.ney@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ce37d80bb07630eca5403effb21fef6ee218af7c
2908
2904
2013-10-08T15:00:11Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos joram@hotmail.es
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
75a97d6329e4f70ff223698c92bd1da9f9f71e85
2909
2908
2013-10-08T15:52:04Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
afaf880e3eee701afed538b4c2c74eae32a1de68
2910
2909
2013-10-10T12:52:22Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure tohave the up to date list see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
2fa92b66971a9f6df13d6b332cbe9665816daf79
2911
2910
2013-10-10T12:53:08Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
f28302286e3103c97aa9057eed70e7c85975fc59
2912
2911
2013-10-10T12:55:36Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
2bc488948a952ac0dc65788386db8588947043fc
2913
2912
2013-10-10T12:56:06Z
Ripp
1
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.igbmc.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.igbmc.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
eb1a5eac50e9a7373884e252d01ad1df1a47e77b
2914
2913
2013-10-11T12:05:09Z
Wraff
5
/* LBGI */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.igbmc.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.u-strasbg.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.igbmc.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
1d37025f128b5b2a473d1e41b5ab830b24185efe
2915
2914
2013-10-11T12:06:36Z
Wraff
5
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
0d5fda0aa6688bec27325f0f682f7ca8c548e29a
2918
2915
2013-10-14T15:43:51Z
Ripp
1
/* Progiciels */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9a88e65cfbcf998f3f219d2fd2a2d33686c69ffb
2920
2918
2013-10-15T12:34:17Z
Wraff
5
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POLVECHE Hélène polveche.helene@gmail.com
* POIDEVIN Laetitia l.poidevin@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
1240af8f334277a46dcb2302a584330562f80454
2921
2920
2013-10-15T12:35:14Z
Wraff
5
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène polveche.helene@gmail.com
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
c8287783b741754c700c304738a43b5c8d5d34be
2928
2921
2013-10-18T09:19:32Z
Kchennen
31
/* Outils programmation et Unix */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] Laboratoire de BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres du laboratoire.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène polveche.helene@gmail.com
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
e71274ae2254f3874e8727c30d6ff3a6a172d7d3
MicroVesicles
0
1439
2895
2013-05-30T14:55:07Z
Ripp
1
New page: Micro Vesicles par Anaïs Nicol
wikitext
text/x-wiki
Micro Vesicles par Anaïs Nicol
d3e79684bd4a20b3d179831dbd3e1c6ddcc9de0c
String
0
1421
2896
2876
2013-06-27T14:55:45Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
Filtrage des réseaux:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
c4962111a76eaf45a823c0be81e18f242b47854f
2897
2896
2013-06-27T14:57:28Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
Filtrage des réseaux:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
85e0d7150a8032dc0ff381b102b33fc3e0def4ee
2898
2897
2013-06-27T14:58:22Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
Filtrage des réseaux:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
051c3bfb06f211ec0e31e01659da5f753ae3418a
2899
2898
2013-06-27T14:58:35Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
Filtrage des réseaux:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
exemple : 396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
a2ab986baf06111d43f679c108d129a656aa7da9
2900
2899
2013-06-27T15:00:01Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
[[Filtrage des réseaux]]:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
a3467eea6d51cd6cd029967a7070ff1a0cebc272
2901
2900
2013-06-27T15:01:26Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
[[Filtrage des réseaux]]:
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
206ddb988ab892de3be0e668219edd410df929b8
2902
2901
2013-06-27T15:03:05Z
Poidevin
11
/* Gscope StringInteractome */
wikitext
text/x-wiki
STRING - Known and Predicted Protein-Protein Interactions
from [http://string.embl.de http://string.embl.de] STRING is a database of known and predicted protein interactions.The interactions include direct (physical) and indirect (functional) associations;;they are derived from four sources: Genomic Context, High-throughput Experiments, (Conserved) Coexpression and Previous Knowledge
STRING quantitatively integrates interaction data from these sources for a large number of organisms, and transfers information between these organisms where applicable. The database currently covers 2,590,259 proteins from 630 organisms.
Nous avons implémenté en local au [[LBGI]] la base de données PostgreSQL String8.2 et développé quelques outils pour l'interroger : sous Gscope, en PHP.
Voir aussi ci-dessous comment charger Cytoscape avec les données fournies.
S'utilise surtout à travers [[SringInteractome]] et [[CytoscapeWeb]] ou [[Cytoscape]]
=Gscope StringInteractome=
Il suffit de donner un fichier contenant une liste de gènes ou de probesets (NM, affy, nom de gène, etc.), par exemple le fichier String_essai.txt avec une ligne d'entête (s'il n'y en a pas on mettra data1 data2, etc...). NB: la ligne d'entête doit commencer par #
#accessnum genename
NM_177470 Acaa2
NM_010678 Aff3
<source lang='tcl'>
setgscoperr
gscope puts StringInteractome {FichierDepart RepertoireParent Org {SeuilString ""} {From ""} {WithoutTextMiningOnly ""}}
# (for example, see details described below :)
gscope puts StringInteractome inputFile . Homo_sapiens 700
</source>
ou directement en http (ici je donne un exemple avec RepertoireParent qui est '/ici/par/la/SameAsFile' (SameAsFile tel quel dans le texte), et l'orga Homo_sapiens (avec '_' merci)
<source lang='tcl'>
http://lbgi.igbmc.fr/~ripp/cgi-bin/GscopeServer?EVImm&StringInteractome&/home/ripp/lg.lst&/ici/par/la/SameAsFile&Homo_sapiens
</source>
* FichierDepart (est ici String_essai.txt)
* RepertoireParent va contenir un nouveau répertoire
** appelé String_taxid_date qui est créé automatiquement
** ou si RepertoireParent est de la forme /bidule/machin/'''SameAsFile''' on créera /bidule/machin/FichierDepart (sans .txt ... ici String_essai)
* Org est soit Mus_musculus ou "Mus musculus" ou 10090, Homo_sapiens ou "Homo sapiens" ou 9606, Rattus_norvegicus etc.
* SeuilString par défaut 700
* From est FromNM, FromAffy ou FromTest (défaut). Si FromTest on teste chaque valeur pour détecter si c'est NM ou Affy etc.
* WithoutTextMiningOnly on ne prend pas ceux qui ne sont trouvés QUE PAR textmining
StringInteractome va créer le répertoire RepertoireParent/String_10090_20091213_1655 (ou RepertoireParent/String_essai) qui contiendra
AttributeNode contient PreferredName, StringId, et ''toutes les colonnes du FichierDepart''. Permet de colorer les noeuds dans Cytoscape selon les colonnes de ce fichier (exemple: colorer selon l'expression). Par défaut, contient une colonne appelée QueryColor qui permettra de colorer les gènes de départ
Identifiers contient les identifiants String correspondant aux gènes du FichierDepart
QueryOnly.string network avec uniquement les gènes du FichierDepart
Sandwich.string network avec les gènes du FichierDepart et ceux possédant au moins deux interactions avec nos gènes de départ
String_essai.tgz le tar gzip de tout ça.
String_essai.txt le FichierDepart
String_essai_context.txt le contexte dans lequel on a créé cette liste
Summary.txt contient pour chaque query: Query;StringId;PreferredName;''toutes les colonnes du FichierDepart''
WithAny.parser contient pour chaque query: le nombre d'interactions, le nombre d'interactions uniquement avec les gènes du FichierDepart, le % d'interactions uniquement avec les gènes du FichierDepart et la liste de ces gènes
WithAny.string network avec les gènes du FichierDepart et toutes leurs interactions
'''Filtrage des réseaux:'''
Il est maintenant possible de filtrer les nœuds du réseau selon l'expression dans une condition.
Par exemple, tu peux garder seulement les nœuds du réseau qui ont une expression dans le muscle.
NB: pas de filtrage sur la liste initiale c'est à dire qu'un nœud de la liste initiale ne sera jamais éliminé.
Le filtre peut être un fichier avec une liste de GeneName (ou probeset ou Sw ou NM).
Il peut être aussi une suite d’argument séparé par des « _ » pour interroger GxDb (pkRe_pkAs_Tag_Min_Max) :
396_1_T_400_600 récupère les gènes qui s’expriment dans la rétine après RMA et qui ont un SI entre 400 et 600
Mais tu n’es pas obligé de remplir chaque champ :
396_1_T récupère les gènes qui s’expriment dans la rétine après RMA
396_1_100_400 == 396_1__100_400 récupère les gènes qui ont une expression entre 100 et 400 après RMA
396_1__100 == 396_1_100 récupère les gènes qui ont une expression supérieur à 100 après RMA
396_0___100 récupère les gènes qui ont une expression inférieur à 100 après RMA
Tu peux aussi choisir plusieurs realexp ou As avec la virgule comme séparateur :
396,398_1,2_T__900 récupère les gènes qui s’expriment dans la rétine ou la glande salivaire avec une expression supérieure à 900 après RMA ou gcRMA
NB : pour chaque gène de la liste de sortie, il peut y avoir qu’une seule probeset qui réponde aux critères.
NB : dans le cas où pkAs est vide ou égale à 0, cela veut dire qu’on prend tous les As
Si tu laisses le SeuilString au défaut, tu peux utiliser sa place dans la liste d’argument pour ton filtre :
gscope puts StringInteractome FichierDepart . Mus_musculus 396_1_T
Si tu veux utiliser un autre SeuilString que le défaut, tu dois utiliser la dernière place dans la liste d’argument :
gscope puts StringInteractome FichierDepart . Mus_musculus 900 "" "" "" "" 396_1_T
En fichier sortie, on conserve les fichiers STRING qui ne sont pas filtrés (on leur rajoute l’extension .NotFiltered) et dans le cas ou tu interroges Gx je crée un fichier en sortie de Gx ; la liste des genesnames
=PHP StringInteractome=
tout ça est accessible depuis PHP.
* par RrFun::Wscope("EVImm", "StringInteractome", $params);
params est un array de la forme (on voit ici les valeurs prises par défaut)
$params["org"] = "Mus_musculus"; (puisque Laëtitia refuse de mettre un défaut dans StringInteractome !!!)
$params["seuil"] = "";
$params["from"] = "";
$params["wtmo"] = "";
$params["repparent"] = "home/ripp/GenoretWww/ImAnno/ImAnnoEar/String";
Dans touts les cas on crée un tar gzip .tgz qui peut être téléchargé.
=Cytoscape=
On a maintenant tout ce qu'il faut pour entrer dans Cytoscape
# File/import network from table WithAny.string
# File/import network from table Sandwich.string
# File/import network from table QueryOnly.string
# import attribute AttributeNode
Quand on fait import network il faut :
# select file ...
# cocher Show text file import options
** Delimiter Tab (enlever Space)
** Show all entries
** Transfert first line as attribute names
# Source Interaction prendre column 2 (PNInitial)
# Target Interaction prendre column 4 (PNCopain)
# Import
# Close la fenêtre de baratin
Quand on fait import Attributes
# Select table ...
# Show text file import options
** Delimiter Tab (c'est déjà bon)
** Show all entries
** Transfert first line as attribute names
# Import
# Close la fenêtre de baratin
Avec ça on peut colorier nos gènes
# Cliquer sur l'onglet WizMapper
# Double-cliquer Node Color (il saute en haut)
# Select Value QueryColor
# Mapping type Discrete Mapper
# Cliquer sur le 1 puis dans sa case vide à droite
# Il apparaît trois petits points cliquer dessus pour choisir une couleur
Bonne chance !
Raymond
40dea55b47f6d053bac3be9027f8541599fee11b
BIRD
0
1313
2905
2826
2013-10-01T07:18:17Z
Nguyen
15
wikitext
text/x-wiki
BIRD System : Biological Integration and Retrieval Data was designed by Hoan Nguyen at LBGI laboratory (POCH Team) of IGBMC[http://www-igbmc.u-strasbg.fr] Strasbourg
==What is the BIRD System==
===BIRD System Overview===
The BIRD System was designed to manage large collections of biological data ([[Bird_Databases_List]]) and to perform intensive computation and simulation. BIRD has inherited some of the idealogy of the Saada project [http://amwdb.u-strasbg.fr/saada/article.php3?id_article=32]. A generic configurable data model has been designed and allows the simultaneous integration of genomics, transcriptomics and ontology datasets using a limited number of product mapping rules provided by the user (operator or system administrator). The integration rules allow the easy creation of a database according to semantic topics and real requirements.
BIRD is driven by a high level query engine (BIRD-QL), based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. Thanks to such an engine, the system is capable of generating sub-databases in accordance with the real requirements of a given project.
The hosted data can be accessed by the community using various methods such as a Web interface, Http Service, an API Java or a BIRD-QL Engine Query.
The BIRD System is developed using the Java technology and uses the IBM DB2 as the data server, as well as the Websphere Federation Server for virtual databases. The web application is hosted either by a Tomcat Server or by a WebSphere Application Server.
The BIRD System is not only a data retrieval tool, but also provides a platform for Knowledge Discovery in Biological Databases or an inductive database. We use the IBM Intelligent Miner (association rules, classification, ..) in order to develop the data mining model. The user can then use BIRD-QL for mining pertinent information or for analyzing the relational patterns based on the descriptive patterns available in the BIRD-QL engine.
The first goal of the Bird System is the implementation of the Décrypthon Data Center in the framework of the Décrypthon Programme (AFM/CNRS/IBM ) [http://www.decrypthon.fr]
==[[BIRDQL]] Biological Query Language ==
The heterogeneous data integrated in the BIRD System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious and can only be performed by expert developers or computer scientists.
In this context, building complex queries with SQL involves the use of joins (technical term) to select data in multiple tables. This complexity can be hidden by HTML forms, but many types of queries cannot be specified with HTML forms.
We have therefore developed our own query language ([[BIRDQL]]), which is a new biological query language that allows the biologist or clinician to create data retrieval protocols without requiring exhaustive knowledge of the data sources and their architecture. BIRDQL makes it possible for biologists to easily express queries and to extract knowledge using classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
[[BIRDQL]] in not a mathematically complete language but instead is an idiom that is adapted to the GUI and is human readable enough to be modified by hand.
see more [[BIRDQL]]
[[Category:Bird_project]]
6c9f80b20dab94c8c9f8ad94ceec73f0503a27bf
Quel outil utilise quel outil
0
1432
2906
2848
2013-10-02T16:50:08Z
Ripp
1
wikitext
text/x-wiki
voir http://dbgs.lbgi.fr/dbgs/phpRR/lance.php?action=FedFun::qo
Quel outil utilise quels outils parmi :
* Gscope
* PipeAlign
* Blast
* Ballast
* ClustalW
* Cluspack
* Macsims
* KoAnno
* GxDb
* SM2PH
* BlastDatabases
* OrthoInspector
* BIRD
* StringInteractome
* ILP
* KbmPortal
* SqlDatabase
* DB2DataWarehouse
* TomcatServer
* AlexSys
* R-library
* Modeller
* DSSP
* I-Mutant
* Delphi
* SIFT
* WebSpherePortal
* BioJava
* Weka
37f6cd18310fd4f50ef24b7fba310ca763f91ceb
2907
2906
2013-10-02T16:50:42Z
Ripp
1
wikitext
text/x-wiki
voir http://www.lbgi.fr/dbgs/phpRR/lance.php?action=FedFun::qo
Quel outil utilise quels outils parmi :
* Gscope
* PipeAlign
* Blast
* Ballast
* ClustalW
* Cluspack
* Macsims
* KoAnno
* GxDb
* SM2PH
* BlastDatabases
* OrthoInspector
* BIRD
* StringInteractome
* ILP
* KbmPortal
* SqlDatabase
* DB2DataWarehouse
* TomcatServer
* AlexSys
* R-library
* Modeller
* DSSP
* I-Mutant
* Delphi
* SIFT
* WebSpherePortal
* BioJava
* Weka
0ea4ad1088d1261f15e5992f97f380977566d712
Fed Website Architecture
0
1415
2916
2581
2013-10-11T18:17:04Z
Ripp
1
wikitext
text/x-wiki
[[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s).
We describe here the architecture of ONE website. Let's call it "'''arthur'''".
==Main concepts==
=== a relational SQL database===
one database for our Fed instance (by default let's call it "'''arthur'''")
===the fed shared php programs are in following directories===
** /arthur/phpGB (alias Project)
** /arthur/phpRR
** /arthur/phpLP
===a hierarchical 3 levels tree organisation===
* sections
* categories
* buds
stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php.
A page corresponds to the display of a section/categorie/bud.
* All buds of the displayed category are clickable
* All categories of the displayed section are clickable
* All sections are allways available.
===a page is displayed by a centralized .php program===
FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php
Each page is created using the /arthur/own/css/bora/bora.tpl.php model and the hierarchical organization MenuBarBora.php.
The bora.tpl.php calls the MenuMaker for all the menus which are dispayed on the page.
a1f403da365ce6f9b8c78284bb80c8945d9d889c
2917
2916
2013-10-11T18:18:25Z
Ripp
1
/* a page is displayed by a centralized .php program */
wikitext
text/x-wiki
[[Fed]] Federating Data is a unique set of PHP programs displaying concurrently several websites ([[Fed instance]]s).
We describe here the architecture of ONE website. Let's call it "'''arthur'''".
==Main concepts==
=== a relational SQL database===
one database for our Fed instance (by default let's call it "'''arthur'''")
===the fed shared php programs are in following directories===
** /arthur/phpGB (alias Project)
** /arthur/phpRR
** /arthur/phpLP
===a hierarchical 3 levels tree organisation===
* sections
* categories
* buds
stored as html file with ul and li in /arthur/own/desk/MenuBarBora.php.
A page corresponds to the display of a section/categorie/bud.
* All buds of the displayed category are clickable
* All categories of the displayed section are clickable
* All sections are allways available.
===a page is displayed by a centralized .php program===
FedHTMLDocument.php (aujoud'hui encore GenoretHTMLDocument) according to the CSS stored in /arthur/own/css/bora/Bora.css.php
Each page is created using the /arthur/own/css/bora/bora.tpl.php model and the hierarchical organization MenuBarBora.php.
The bora.tpl.php calls the phpRR/MenuMaker.php to now what to put in the menus.
e7bf4aa39ad25f8909ae02e3630395b5ab1c39f4
Vep
0
1440
2919
2013-10-14T16:22:09Z
Kchennen
31
New page: Date : 2013/10/14 Author : kchennen == Variant Effect Predictor ==
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== Variant Effect Predictor ==
9a99d2d594ffd78fb3403c8d11a57aa93f0f5664
2923
2919
2013-10-15T13:11:39Z
Kchennen
31
/* Variant Effect Predictor */
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] ==
* Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html
* Installation on studio with Raymond
** installation in /biolo/vep
* Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73)
> curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz
> cd variant_effect_predictor
* Install the API with a local cache in /biolo/vep/cache
> perl INSTALL.pl -c /biolo/vep/cache
Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP.
It will not affect any existing installations of the Ensembl API that you may have.
It will also download and install cache files from Ensembl's FTP server.
Checking for installed versions of the Ensembl API...done
It looks like you already have v73 of the API installed.
You shouldn't need to install the API
Skip to the next step (n) to install cache files
Do you want to continue installing the API (y/n)?
399815698d0f74f24bbc2433a44db4a08511a3a7
2924
2923
2013-10-15T13:14:25Z
Kchennen
31
/* Variant Effect Predictor */
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] ==
* Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html
* Installation on studio with Raymond
** installation in /biolo/vep
* Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73)
> curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz
> cd variant_effect_predictor
* Install the API with a local cache in /biolo/vep/cache
> perl INSTALL.pl -c /biolo/vep/cache
Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP.
It will not affect any existing installations of the Ensembl API that you may have.
It will also download and install cache files from Ensembl's FTP server.
Checking for installed versions of the Ensembl API...done
It looks like you already have v73 of the API installed.
You shouldn't need to install the API
Skip to the next step (n) to install cache files
Do you want to continue installing the API (y/n)?y
Setting up directories
Downloading required files
- fetching ensembl
- unpacking ./Bio/tmp/ensembl.tar.gz
- moving files
- fetching ensembl-variation
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s)
- unpacking ./Bio/tmp/ensembl-variation.tar.gz
- moving files
- fetching ensembl-functgenomics
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s)
- unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz
- moving files
- fetching BioPerl
** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s)
- unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz
- moving files
Testing VEP script
- OK!
Install local cache for database connections for homo sapiens
The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP
Cache files will be stored in /my/home/kchennen/.vep
Do you want to install any cache files (y/n)? y
Cache directory /my/home/kchennen/.vep does not exists - do you want to create it (y/n)? y
Downloading list of available cache files
The following species/files are available; which do you want (can specify multiple separated by spaces):
1 : ailuropoda_melanoleuca_vep_73.tar.gz
2 : anas_platyrhynchos_vep_73.tar.gz
3 : anolis_carolinensis_vep_73.tar.gz
...
25 : homo_sapiens_refseq_vep_73.tar.gz
26 : homo_sapiens_vep_73.tar.gz
...
? 25 26
- downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_refseq_vep_73.tar.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_refseq_vep_73.tar.gz ==> 200 OK (253s)
- unpacking homo_sapiens_refseq_vep_73.tar.gz
- downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s)
- unpacking homo_sapiens_vep_73.tar.gz
Download FASTA files for homo sapiens
The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks.
FASTA files will be stored in /my/home/kchennen/.vep
Do you want to install any FASTA files (y/n)? y
FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download):
1 : ailuropoda_melanoleuca
2 : anas_platyrhynchos
3 : ancestral_alleles
...
26 : homo_sapiens
...
? 26
Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s)
Extracting data
The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /my/home/kchennen/.vep/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa"
Success
* Configure
* create configuration file in /my/home/kchennen/.vep
##########################
## general features flags
##########################
force_overwrite 1
verbose 1
species homo_sapiens
fork 4
###########################
## output annotation flags
###########################
sift b # the SIFT prediction and score, with both given as prediction(score)
polyphen b # the PolyPhen prediction and score
regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site.
numbers 1 # Adds affected exon and intron numbering to to output.
domains 1 # Adds names of overlapping protein domains to output.
terms so
################################
## ouput indentifications flags
################################
hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output.
symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output.
ccds 1 # Adds the CCDS transcript identifer (where available) to the output.
protein 1 # Add the Ensembl protein identifier to the output where appropriate.
canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene.
biotype 1 # Adds the biotype of the transcript. Not used by default
xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip
#############################
## Co-located variants flags
#############################
gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output.
#maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output.
maf_esp 1 # Include MAF from NHLBI-ESP populations.
pubmed 1 # Report Pubmed IDs for publications that cite existing variant.
check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel.
check_svs 1 # Checks for the existence of structural variants that overlap your input.
##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed.
#############################
## Filtering and QC options
#############################
#check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database.
#coding_only 1 # Only return consequences that fall in the coding regions of transcripts.
no_intergenic 1 # Do not include intergenic consequences in the output.
#most_severe 1 # Output only the most severe consequence per variation.
#summary 1 # Output only a comma-separated list of all observed consequences per variation.
#per_gene 1 # Output only the most severe consequence per gene.
filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters.
* add plugins in /my/home/kchennen/.vep/Plugins
28edb75fdfd80a1b95886dd731771020dcdb5da8
2925
2924
2013-10-15T13:34:33Z
Kchennen
31
/* Variant Effect Predictor */
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] ==
* Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html
* Installation on studio with Raymond
** installation in /biolo/vep
* Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73)
> curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz
> cd variant_effect_predictor
* Install the API with a local cache in /biolo/vep/cache
> perl INSTALL.pl -c /biolo/vep/cache
Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP.
It will not affect any existing installations of the Ensembl API that you may have.
It will also download and install cache files from Ensembl's FTP server.
Checking for installed versions of the Ensembl API...done
It looks like you already have v73 of the API installed.
You shouldn't need to install the API
Skip to the next step (n) to install cache files
Do you want to continue installing the API (y/n)?y
Setting up directories
Downloading required files
- fetching ensembl
- unpacking ./Bio/tmp/ensembl.tar.gz
- moving files
- fetching ensembl-variation
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s)
- unpacking ./Bio/tmp/ensembl-variation.tar.gz
- moving files
- fetching ensembl-functgenomics
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s)
- unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz
- moving files
- fetching BioPerl
** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s)
- unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz
- moving files
Testing VEP script
- OK!
* Install local cache for database connections for homo sapiens
The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP
Cache files will be stored in /biolo/vep/cache
Do you want to install any cache files (y/n)? y
Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y
Downloading list of available cache files
The following species/files are available; which do you want (can specify multiple separated by spaces):
1 : ailuropoda_melanoleuca_vep_73.tar.gz
2 : anas_platyrhynchos_vep_73.tar.gz
3 : anolis_carolinensis_vep_73.tar.gz
...
25 : homo_sapiens_refseq_vep_73.tar.gz
26 : homo_sapiens_vep_73.tar.gz
...
? 26
- downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s)
- unpacking homo_sapiens_vep_73.tar.gz
Download FASTA files for homo sapiens
The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks.
FASTA files will be stored in /biolo/vep/cache
Do you want to install any FASTA files (y/n)? y
FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download):
1 : ailuropoda_melanoleuca
2 : anas_platyrhynchos
3 : ancestral_alleles
...
26 : homo_sapiens
...
? 26
Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s)
Extracting data
The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa"
Success
* Configure
** Add plugins
*** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins]
*** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins
** Create the configuration file vep.ini in /biolo/vep/cache
##########################
## general features flags
##########################
force_overwrite 1
verbose 1
species homo_sapiens
fork 4
###########################
## output annotation flags
###########################
sift b # the SIFT prediction and score, with both given as prediction(score)
polyphen b # the PolyPhen prediction and score
regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site.
numbers 1 # Adds affected exon and intron numbering to to output.
domains 1 # Adds names of overlapping protein domains to output.
terms so
################################
## ouput indentifications flags
################################
hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output.
symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output.
ccds 1 # Adds the CCDS transcript identifer (where available) to the output.
protein 1 # Add the Ensembl protein identifier to the output where appropriate.
canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene.
biotype 1 # Adds the biotype of the transcript. Not used by default
xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip
#############################
## Co-located variants flags
#############################
gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output.
#maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output.
maf_esp 1 # Include MAF from NHLBI-ESP populations.
pubmed 1 # Report Pubmed IDs for publications that cite existing variant.
check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel.
check_svs 1 # Checks for the existence of structural variants that overlap your input.
##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed.
#############################
## Filtering and QC options
#############################
#check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database.
#coding_only 1 # Only return consequences that fall in the coding regions of transcripts.
no_intergenic 1 # Do not include intergenic consequences in the output.
#most_severe 1 # Output only the most severe consequence per variation.
#summary 1 # Output only a comma-separated list of all observed consequences per variation.
#per_gene 1 # Output only the most severe consequence per gene.
filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters.
d67f03014c665a4db69b7758cb9407a3176b37e6
2926
2925
2013-10-15T13:37:31Z
Kchennen
31
/* Variant Effect Predictor */
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] ==
* Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html
* Installation on studio with Raymond
** installation in /biolo/vep
* Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73)
> curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz
> cd variant_effect_predictor
* Install the API with a local cache in /biolo/vep/cache
> perl INSTALL.pl -c /biolo/vep/cache
Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP.
It will not affect any existing installations of the Ensembl API that you may have.
It will also download and install cache files from Ensembl's FTP server.
Checking for installed versions of the Ensembl API...done
It looks like you already have v73 of the API installed.
You shouldn't need to install the API
Skip to the next step (n) to install cache files
Do you want to continue installing the API (y/n)?y
Setting up directories
Downloading required files
- fetching ensembl
- unpacking ./Bio/tmp/ensembl.tar.gz
- moving files
- fetching ensembl-variation
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s)
- unpacking ./Bio/tmp/ensembl-variation.tar.gz
- moving files
- fetching ensembl-functgenomics
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s)
- unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz
- moving files
- fetching BioPerl
** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s)
- unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz
- moving files
Testing VEP script
- OK!
* Install local cache for database connections for homo sapiens
The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP
Cache files will be stored in /biolo/vep/cache
Do you want to install any cache files (y/n)? y
Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y
Downloading list of available cache files
The following species/files are available; which do you want (can specify multiple separated by spaces):
1 : ailuropoda_melanoleuca_vep_73.tar.gz
2 : anas_platyrhynchos_vep_73.tar.gz
3 : anolis_carolinensis_vep_73.tar.gz
...
25 : homo_sapiens_refseq_vep_73.tar.gz
26 : homo_sapiens_vep_73.tar.gz
...
? 26
- downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s)
- unpacking homo_sapiens_vep_73.tar.gz
Download FASTA files for homo sapiens
The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks.
FASTA files will be stored in /biolo/vep/cache
Do you want to install any FASTA files (y/n)? y
FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download):
1 : ailuropoda_melanoleuca
2 : anas_platyrhynchos
3 : ancestral_alleles
...
26 : homo_sapiens
...
? 26
Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s)
Extracting data
The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa"
Success
* Configure
** Add plugins
*** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins]
*** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins
** Create the configuration file vep.ini in /biolo/vep/cache
##########################
## general features flags
##########################
force_overwrite 1
verbose 1
species homo_sapiens
fork 4
###########################
## output annotation flags
###########################
sift b # the SIFT prediction and score, with both given as prediction(score)
polyphen b # the PolyPhen prediction and score
regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site.
numbers 1 # Adds affected exon and intron numbering to to output.
domains 1 # Adds names of overlapping protein domains to output.
terms so
################################
## ouput indentifications flags
################################
hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output.
symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output.
ccds 1 # Adds the CCDS transcript identifer (where available) to the output.
protein 1 # Add the Ensembl protein identifier to the output where appropriate.
canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene.
biotype 1 # Adds the biotype of the transcript. Not used by default
xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip
#############################
## Co-located variants flags
#############################
gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output.
#maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output.
maf_esp 1 # Include MAF from NHLBI-ESP populations.
pubmed 1 # Report Pubmed IDs for publications that cite existing variant.
check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel.
check_svs 1 # Checks for the existence of structural variants that overlap your input.
##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed.
#############################
## Filtering and QC options
#############################
#check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database.
#coding_only 1 # Only return consequences that fall in the coding regions of transcripts.
no_intergenic 1 # Do not include intergenic consequences in the output.
#most_severe 1 # Output only the most severe consequence per variation.
#summary 1 # Output only a comma-separated list of all observed consequences per variation.
#per_gene 1 # Output only the most severe consequence per gene.
filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters.
* Creation of an alias
vep: aliased to /biolo/vep/variant_effect_predictor.pl --force_overwrite --cache --dir /biolo/vep/cache
8f77d968c3e177d2411f3164ef364439f69822d1
2927
2926
2013-10-15T13:40:53Z
Kchennen
31
/* Variant Effect Predictor */
wikitext
text/x-wiki
Date : 2013/10/14
Author : kchennen
== [http://www.ensembl.org/info/docs/tools/vep/script/index.html Variant Effect Predictor] ==
* Source: http://www.ensembl.org/info/docs/tools/vep/script/index.html
=== Installation ===
* Installation on studio with Raymond
** installation in /biolo/vep
* Download [http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73 latest archieve] (v73)
> curl "http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-tools/scripts/variant_effect_predictor.tar.gz?view=tar&root=ensembl&pathrev=branch-ensembl-73" | tar xz
> cd variant_effect_predictor
* Install the API with a local cache in /biolo/vep/cache
> perl INSTALL.pl -c /biolo/vep/cache
Hello! This installer is configured to install v73 of the Ensembl API for use by the VEP.
It will not affect any existing installations of the Ensembl API that you may have.
It will also download and install cache files from Ensembl's FTP server.
Checking for installed versions of the Ensembl API...done
It looks like you already have v73 of the API installed.
You shouldn't need to install the API
Skip to the next step (n) to install cache files
Do you want to continue installing the API (y/n)?y
Setting up directories
Downloading required files
- fetching ensembl
- unpacking ./Bio/tmp/ensembl.tar.gz
- moving files
- fetching ensembl-variation
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-variation.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (8s)
- unpacking ./Bio/tmp/ensembl-variation.tar.gz
- moving files
- fetching ensembl-functgenomics
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?root=ensembl&view=tar&only_with_tag=branch-ensembl-73 ==> 301 Moved
** GET http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl-functgenomics.tar.gz?pathrev=branch-ensembl-73&root=ensembl&view=tar ==> 200 OK (5s)
- unpacking ./Bio/tmp/ensembl-functgenomics.tar.gz
- moving files
- fetching BioPerl
** GET http://bioperl.org/DIST/BioPerl-1.6.1.tar.gz ==> 200 OK (15s)
- unpacking ./Bio/tmp/BioPerl-1.6.1.tar.gz
- moving files
Testing VEP script
- OK!
* Install local cache for database connections for homo sapiens
The VEP can either connect to remote or local databases, or use local cache files. Using local cache files is the fastest and most efficient way to run the VEP
Cache files will be stored in /biolo/vep/cache
Do you want to install any cache files (y/n)? y
Cache directory /biolo/vep/cache does not exists - do you want to create it (y/n)? y
Downloading list of available cache files
The following species/files are available; which do you want (can specify multiple separated by spaces):
1 : ailuropoda_melanoleuca_vep_73.tar.gz
2 : anas_platyrhynchos_vep_73.tar.gz
3 : anolis_carolinensis_vep_73.tar.gz
...
25 : homo_sapiens_refseq_vep_73.tar.gz
26 : homo_sapiens_vep_73.tar.gz
...
? 26
- downloading ftp://ftp.ensembl.org/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/variation/VEP/homo_sapiens_vep_73.tar.gz ==> 200 OK (305s)
- unpacking homo_sapiens_vep_73.tar.gz
Download FASTA files for homo sapiens
The VEP can use FASTA files to retrieve sequence data for HGVS notations and reference sequence checks.
FASTA files will be stored in /biolo/vep/cache
Do you want to install any FASTA files (y/n)? y
FASTA files for the following species are available; which do you want (can specify multiple separated by spaces, "0" to install for species specified for cache download):
1 : ailuropoda_melanoleuca
2 : anas_platyrhynchos
3 : ancestral_alleles
...
26 : homo_sapiens
...
? 26
Downloading Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz
** GET ftp://ftp.ensembl.org:21/pub/release-73/fasta//homo_sapiens/dna/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa.gz ==> 200 OK (99s)
Extracting data
The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /biolo/vep/cache/homo_sapiens/73/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa"
Success
* Configure
** Add plugins
*** Download latest [https://github.com/ensembl-variation/VEP_plugins archieve of vep plugins]
*** Move all the plugins in the plugin directory /biolo/vep/cache/Plugins
** Create the configuration file vep.ini in /biolo/vep/cache
##########################
## general features flags
##########################
force_overwrite 1
verbose 1
species homo_sapiens
fork 4
###########################
## output annotation flags
###########################
sift b # the SIFT prediction and score, with both given as prediction(score)
polyphen b # the PolyPhen prediction and score
regulatory 1 # Look for overlaps with regulatory regions. The script can also call if a variant falls in a high information position within a transcription factor binding site.
numbers 1 # Adds affected exon and intron numbering to to output.
domains 1 # Adds names of overlapping protein domains to output.
terms so
################################
## ouput indentifications flags
################################
hgvs 1 # Add HGVS nomenclature based on Ensembl stable identifiers to the output.
symbol 1 # Adds the gene symbol (e.g. HGNC) (where available) to the output.
ccds 1 # Adds the CCDS transcript identifer (where available) to the output.
protein 1 # Add the Ensembl protein identifier to the output where appropriate.
canonical 1 # Adds a flag indicating if the transcript is the canonical transcript for the gene.
biotype 1 # Adds the biotype of the transcript. Not used by default
xref_refseq 1 # Output aligned RefSeq mRNA identifier for transcrip
#############################
## Co-located variants flags
#############################
gmaf 1 # Add the global minor allele frequency (MAF) from 1000 Genomes Phase 1 data for any existing variant to the output.
#maf_1kg 1 # Add MAF from continental populations (AFR,AMR,ASN,EUR) of 1000 Genomes Phase 1 to the output.
maf_esp 1 # Include MAF from NHLBI-ESP populations.
pubmed 1 # Report Pubmed IDs for publications that cite existing variant.
check_alleles 1 # When checking for existing variants, only report a co-located variant if none of the alleles supplied are novel.
check_svs 1 # Checks for the existence of structural variants that overlap your input.
##failed 1 # When checking for co-located variants, by default the script will exclude variants that have been flagged as failed.
#############################
## Filtering and QC options
#############################
#check_ref 1 # Force the script to check the supplied reference allele against the sequence stored in the Ensembl Core database.
#coding_only 1 # Only return consequences that fall in the coding regions of transcripts.
no_intergenic 1 # Do not include intergenic consequences in the output.
#most_severe 1 # Output only the most severe consequence per variation.
#summary 1 # Output only a comma-separated list of all observed consequences per variation.
#per_gene 1 # Output only the most severe consequence per gene.
filter_common 1 # Shortcut flag for the filters below - this will exclude variants that have a co-located existing variant with global MAF > 0.01 (1%). May be modified using any of the following freq_* filters.
* Creation of an alias
vep: aliased to /biolo/vep/variant_effect_predictor.pl --force_overwrite --cache --dir /biolo/vep/cache
=== Usage ===
* Set environment
> setvep
vep -i myfile.vcf
* usage
> vep -i input.vcf -o ouput.vcf > output.log
9e027fa9613d2bb41b74af46602613567f8b41f3
LBGI
0
1280
2922
1915
2013-10-15T12:41:03Z
Wraff
5
wikitext
text/x-wiki
'''LBGI''' : le Laboratoire de BioInformatique et Génomique Intégratives
=Organisation=
* Responsable [http://lbgi.fr/~poch Olivier Poch]
* Les [[Membres du LBGI]] (25 personnes dont 10 titulaires, 8 cdd et 7 doctorants)
* Le LBGI fait parti du [http://icube.unistra.fr/ Laboratoire ICube] (CNRS UMR 7357)
(Avant juillet 2013 le LBGI faisait partie du Département de Biologie et Génomique Structurales ([[DBGS]])
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire ([[IGBMC]] UMR7104)
* [http://alnitak.u-strasbg.fr/lbgi_organigramme.jpg Organigramme] du LBGI
=Présentation=
Le but de notre groupe de recherche est de développer des méthodes validées en informatique pour la biologie à haut débit de manière à étudier des systèmes biologiques allant des familles de protéines jusqu'aux systèmes relationnels tels que les "hyperstructures" (complexes macro-moléculaires, organelles, virus,...) ou les réseaux biologiques (métabolosome, réseaux de transcription, de développement ou liés à des maladies,...).
Deux stratégies sont développées dans notre laboratoire pour aborder ces objectifs :
* la bio-informatique pour le développement d'algorithmes originaux et d'une plate-forme intégrée.
* la bio-analyse dédiée à l'analyse approfondie de systèmes biologiques spécifiques pour l'identification de cibles thérapeutiques potentielles intéressantes et l'amélioration des algorithmes et des stratégies informatiques. Dans ce contexte, la génomique fonctionnelle du cancer ou de maladies humaines fournit des systèmes inestimables associant la disponibilité de nombreuses données génomiques et fonctionnelles provenant de patients humains et l'existence de mutations spécifiques dans des modèles animaux avec des données correspondantes de transcriptomique.
=Projets=
==EvolHHuPro==
[http://alnitak.u-strasbg.fr/wikili/index.php/EvolHHuPro Evolutionary Histories of the HUman Proteome]
The goal of our project is the definition of a complete set of the evolutionary histories (cascade of phylogenetic events) for the human proteome and their genome-scale analysis.
=Présentation en anglais=
==Introduction==
The aim of our research group is to develop validated high throughput computational biology to study the behaviour of biological systems ranging from protein families to relational systems such as “hyperstructures” (macromolecular complex, organelles, viruses…) or biological networks (metabolic, transcriptional, interactomic as well as developmental or disease-related networks…). To tackle these objectives, two complementary strategies are developed in our laboratory :
# a bioinformatics approach is used to develop original algorithms and to construct integrated platforms and relational databases
# a bioanalysis approach dedicated to the in depth analysis of specialized biological systems to identify interesting biological targets and to validate and refine efficient algorithms or computational strategies.
In this context, functional and comparative genomics of cancer or human illness represent invaluable experimental systems, combining the availability of numerous genomic and functional data from human patients and the existence of specific mutations in animal models with the respective transcriptomic data available.
==Results==
===Bioinformatics : development of software and databases===
Following the development of the [[PipeAlign]] cascade of programs aimed at the automated construction and evaluation of high-quality, reliable hierarchized Multiple Alignment of Complete Sequences (MACS), new algorithms and approaches to understand and exploit the relationships existing between protein sequence, structure, function and evolution have been developed. This includes the design of the Multiple Alignment Ontology ([[MAO]]) dedicated to the formalisation of the conservation and evolutionary information and the creation of an integrated Information Management System ([[MACSIMS]]), based on the data model embodied in MAO. MACSIMS facilitates knowledge extraction, comparison, evaluation and validation as well as presentation of the most pertinent information to the biologist and allows the definition of the presence/absence status as well as of the hierarchical relationships between and within sequence subfamilies at the complete sequence, domain or single residue levels. MAO and MACSIMS have been central to the development of numerous algorithms and/or web servers for the exploitation of efficient and automated phylogenetic inference in the fields of sequence validation ([[vALId]]), automated up-date of functional family-specific multiple alignments ([[DbW]]), sequence annotation ([[GOAnno]]), comparative genomics ([[ARPAnno]]), 3D modelling ([[MAGOS]]) and promoter analysis ([[PromAn]]). All these developments are integrated through the inhouse-developed GScope bioinformatics platform which is optimized for the automatic treatment and exploitation of large-scale datasets. In addition, the phylogenetic inference reasoning provided by MACSIMS has been exploited in the new version of our multiple alignment benchmark, [[BAliBASE3]], which provides high quality, manually refined, reference alignments based on 3D structural superpositions and includes new, more challenging representative test cases that cover most of the protein fold space and that represent the real problems encountered when aligning large sets of complex sequences.
In the fields of analysis and exploitation of functional genomics data, we are continuing our efforts aimed at high quality, automated and valid transcriptomics and CGH (Chromosomal Comparative Genomic Hybridization) data treatment and analysis. This involves
# The development of a novel portable method for Affymetrix data-filtering ([[Flush]], in collaboration with Y Pawitan at the Karolinska Institute) using the original raw data, which includes information about the homogeneity of all individual probes in the analysis process and is completely independent of the method (RMA, MAS5, dChip, etc.) used for probe-set summarization,
# The development of a statistical model to discriminate CGH outliers that might indicate microevents,
# The development of the SET (Similarity Enhancing Transformation) method for analysis of multivariate data, such as transcriptomics data. SET simplifies large matrices by minimizing a mean square objective function allowing meta-analysis of microarray data from diverse origins.
# Finally, in order to provide a solution for autonomous routine statistical analysis in high-throughput projects, such as transfected cell arrays, transcription profiling or CGH experiments, we have developed [[RReportGenerator]]. RReportGenerator provides a simple and user-friendly graphical user interface (GUI) allowing routine statistical analyses using the powerful [http://www.r-project.org/ R platform], via predefined analysis scenarios in a local and independent manner. All results (text, figures and tables) are automatically assembled into report files and can be complemented by additional files ensuring compatability with external applications (spread-sheet calculation, software, web-browser...).
In the field of database developments, we have designed a multi-level strategy encompassing various aspects of the problems encountered in the development of modern biomedical federative and relational databases.
# The [[BIRD]] (Biological Integration and Retrieval of Data) system allows the semi-automated creation and auto-configuration of a relational database in the framework of an original object-relational architecture. BIRD can host simultaneously heterogeneous data (flat files, images, plots, databases…) by providing a limited number of product mapping rules allowing a fast and dynamic retrieval of the information. A generic configurable data model has been designed that allows the simultaneous integration of most of the major biological sequence, genomics, transcriptomics and ontology resources. BIRD is driven with a high level language and query engine, based on SQL and a full text engine allowing the biologist to quickly extract knowledge without programming. The hosted data can be accessed by the community using various methods such as Web interface, API java or the [[BIRD-QL]] Engine Query via HTTP service.
# The [[RetinoBase]] is a microarray database, analysis and visualization system allowing powerful queries to retrieve information about gene expression in retina. Data obtained from private or publicly available databases or repositories are automatically curated, treated, analyzed and clustered by different optimized scenarios encompassing public or home-developed algorithms and software. Currently, Retinobase contains datasets from 27 different experiments performed in 4 different model systems (human, mouse, rats, zebra fish) processed with 3 different normalization software and up to 3 distinct clustering methods.
# The EVI-[[Genoret Database]] is a federative relational database aimed at providing an infrastructure for managing and templates for the storage, mining and integration of any data or knowledge resulting from the functional genomics of the retina in development, health and disease. As part of the European Integrated Project EVI-GENORET, the EVI-Genoret Database involves a large variety of data, heterogeneous in nature, format and informational content, provided by distinct experts including clinicians, geneticist, molecular biologist, computer scientist… To tackle this problem, the database has been designed around 3 main axes of hierarchized data organization and treatment, namely the Genes-related data which encompass any information or knowledge that can be directly or indirectly related to a gene (mutation, expression, localization…); the Biological Pictures that concern patient-related and clinical data as well as biological features linked to retina in the framework of the development or disease (eye fundus images, electroretinograph…); the Standards and Protocols which provide information concerning the way a given data have been obtained and which is crucial for quality testing, data validation and future establishment and diffusion of de facto standards.
===Bioanalysis===
The bioanalysis axis is characterized by the use of information and bioinformatics tools in the framework of specific biological and biomedical studies, notably human disease. In this context, various important results have been obtained, notably in the understanding of retinal disease through the characterization of the RdCVF gene targets (Rod-Derived Cone Viability Factors) which are involved in the trophic dependence existing between the rods and cones in the retina. In the context of coordinated analysis of functional genomics data from transcriptomics and proteomics origins, we have characterised various gene targets involved in human disease (Bardet-Biedl Syndrome, prostate cancer, head and neck carcinoma…). In the framework of the analysis of specific informational protein families involved in the regulation of the gene transcription, a major insight has been obtained in the understanding of nuclear receptor mode of action through the identification of an intramolecular communication pathway involving specific differentially conserved residues. Two distinct conservation patterns have been identified that partitioned the nuclear receptor into two classes exhibiting distinct oligomerization behaviour. This finding paves the way for an in depth understanding of the cascade of interconnected reactions and regulation involving specific ligand and promoter recognition, oligomerization and transcriptional activation. Finally, following our developments in the field of quality data improvement and validation, we have successfully applied an original strategy for the detection of Interrupted CoDing Sequences ([[ICDS]]) in prokaryotic genomes, showing that numerous sequence errors are present in the sequence database and implying that complementary biocomputing approaches are necessary to predict and annotate in an efficient way the gene information produced in the post-genomic era.
==Projects==
Bioinformatics concerns most if not all projects presently developed within the IGBMC and the Génopole. From genes to drugs, the aim is to develop or adapt the necessary tools, maintain or develop databases and provide the human skill and experience, integrating biology as well as bioinformatics competences for the development of functional biology and genomics with a strong emphasis on structural biology and genomics.
The bioinformatics projects can be divided into three main centres of interest,
# the development of original software, tools and protocols for the real time maintenance, analysis, visualisation and organisation of genomic data, as well as specialised databases and tools for the exploitation of functional genomics data (in particular, originating from proteomics and DNA chips),
# the development of federative relational databases in the field of biomedical research,
# the development of functional and structural biology and genomics through contributions to various projects (identification of new targets for genomics, functional charactisation, annotation, …).
This aspect also naturally includes training of scientists and the maintenance of bioinformatics services open to the national and international scientific community.
# Following our developments concerning the introduction of phylogenetic inference reasoning in modern biology, we will implement new versions of the MAO and MACSIMS systems suitable for interactomics data integration and exploitation as well as for the identification, formalisation and exploitation of the genetic events that contribute to protein evolution. These developments will be tested and validated in the framework of national or international projects aimed at the analysis of the Muscular Interactome, the analysis of vertebrate evolution or through the characterisation and analysis of the complete set of the mammalian transcription factors. Efforts concerning the automated creation of high quality hierarchized MACS (Multiple Alignment of Complete Sequence) will involve the creation of an expert system aimed at the definition of optimized multiple alignment scenarios depending on the biological application of the MACS, that will evaluate the strengths and weaknesses of various algorithms and integrate specific sequence features, conservation patterns or phylogenetic distribution… These developments will be realized in the framework of our GScope bioinformatics platform which ensures the unifying and interoperability aspects.
# The development of federative relational databases will involve: firstly, the improvement of the BIRD system deployment through the integration of new data and databases, notably from interactomics and human genetic origins and secondly, the creation of new federative databases based on the architecture developed in the EVI-Genoret database project and dedicated to the analysis of the role of the actin cytoskeleton in the Epithelium to Mesenchyme Transition process and in the study of the Muscular Interactome. These developments will be performed in the framework of European integrated projects. In the EVI-Genoret database, special attention will be paid to the developments of new tools aimed at the automated annotation and integration of patient and clinical data, thus ensuring efficient and simplified interconnection and querying opportunities for image or textual data.
# Complementary to our involvement in the identification and analysis of functional genomics data resulting from various human disease projects (retinal diseases, Bardet-Biedl Syndrome, muscular diseases, cancers), we have initiated an original project dedicated to the analysis of the cDNA and genome of Alvinella pompejana, a thermotolerant metazoan. This project is aimed at the understanding of the mechanism involved in the adaptation to extreme conditions and notably to temperature stresses. This will involve not only the annotation, through our optimized computational tools, of thousands of proteins originating from an annelid which represents a poorly studied phylum, but also the deployment of an original strategy to take advantage of the sequence, structure, function and evolution information resulting from the Alvinella project for the understanding of protein and genome evolution.
8abe4297b1c79f4cce8563dbee538db6d431945a
Ssh
0
1441
2929
2013-10-18T09:20:12Z
Kchennen
31
New page: ===SSH login without password====
wikitext
text/x-wiki
===SSH login without password====
90477114a6fdf232864898d208188f74e0f794d9
2930
2929
2013-10-18T09:20:25Z
Kchennen
31
/* SSH login without password= */
wikitext
text/x-wiki
=== SSH login without password ===
05ee0e7c85eadfbafd6c2d4d77f2f32e45dda713
2931
2930
2013-10-18T09:29:32Z
Kchennen
31
/* SSH login without password */
wikitext
text/x-wiki
=== SSH login without password ===
It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so.
* Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question.
maurice:~> ssh-keygen -t dsa
[backup@server ~]$ ssh-keygen -t rsa
Generating public/private dsa key pair.
Enter file in which to save the key (/home/kchennen/.ssh/id_dsa):
Created directory '/home/kchennen/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/kchennen/.ssh/id_dsa.
Your public key has been saved in /home/kchennen/.ssh/id_dsa.pub.
The key fingerprint is:
93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 kchennen@maurice
The key's randomart image is:
+--[ DSA 1024]----+
|o ...o. |
|oo. + . |
|.. o .. |
| . .. . |
| o .. S . |
| . .. o . |
| . . . |
| . o o . |
| .E=.o.o |
+-----------------+
Generating public/private rsa key pair.
Enter file in which to save the key (/home/backup/.ssh/id_rsa):
Created directory '/home/backup/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/backup/.ssh/id_rsa.
Your public key has been saved in /home/backup/.ssh/id_rsa.pub.
f7ca21af1656e1b18d969c38f95f145e0e8252a5
2932
2931
2013-10-18T09:29:46Z
Kchennen
31
/* SSH login without password */
wikitext
text/x-wiki
=== SSH login without password ===
It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so.
* Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question.
maurice:~> ssh-keygen -t dsa
[backup@server ~]$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/backup/.ssh/id_rsa):
Created directory '/home/backup/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/backup/.ssh/id_rsa.
Your public key has been saved in /home/backup/.ssh/id_rsa.pub.
0f8eb4c158c27543d92c5933f3eefddf797f98c2
Ssh
0
1441
2933
2932
2013-10-18T09:34:55Z
Kchennen
31
/* SSH login without password */
wikitext
text/x-wiki
=== SSH login without password ===
It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so.
* Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question.
maurice:~> ssh-keygen -t dsa
[backup@server ~]$ ssh-keygen -t rsa
Generating public/private dsa key pair.
Generating public/private dsa key pair.
Enter file in which to save the key (/home/kchennen/.ssh/id_dsa):
Created directory '/home/kchennen/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/kchennen/.ssh/id_dsa.
Your public key has been saved in /home/kchennen/.ssh/id_dsa.pub.
The key fingerprint is:
93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 kchennen@maurice
The key's randomart image is:
+--[ DSA 1024]----+
|o ...o. |
|oo. + . |
|.. o .. |
| . .. . |
| o .. S . |
| . .. o . |
| . . . |
| . o o . |
| .E=.o.o |
+-----------------+
Generating public/private rsa key pair.
Enter file in which to save the key (/home/backup/.ssh/id_rsa):
Created directory '/home/backup/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/backup/.ssh/id_rsa.
Your public key has been saved in /home/backup/.ssh/id_rsa.pub.
026a38499dff5436f2b7f74701b59bdbab27544f
2934
2933
2013-10-18T10:15:05Z
Kchennen
31
/* SSH login without password */
wikitext
text/x-wiki
=== SSH login without password ===
Date: 2013/10/18
Author: kchennen
It's common to use ssh and scp for communicating and transferring files to and from a server. If you want to auto-login without a password, here's how to setup SSH to use encryption keys to do so.
'''Procedure if your login account is on ena:'''
* Run '''ssh-keygen''' to create an encryption key pair, the public and private keys on your PC. You can just hit return for each question. In this example the user is "toto" on the machine "mon_ordi"
mon_ordi:~> cd
mon_ordi:~> ssh-keygen -t dsa
Generating public/private dsa key pair.
Enter file in which to save the key (/home/toto/.ssh/id_dsa):
Created directory '/home/toto/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/toto/.ssh/id_dsa.
Your public key has been saved in /home/toto/.ssh/id_dsa.pub.
The key fingerprint is:
93:42:01:20:1a:de:a5:ad:7c:eb:fe:7f:52:e8:a2:a7 toto@mon_ordi
The key's randomart image is:
+--[ DSA 1024]----+
|o ...o. |
|oo. + . |
|.. o .. |
| . .. . |
| o .. S . |
| . .. o . |
| . . . |
| . o o . |
| .E=.o.o |
+-----------------+
* Move public key to a distant machine
cat .ssh/id_dsa.pub | ssh toto@ena \ "cat - >>.ssh/authorized_keys"
* ssh connection without password
ssh ena
45040ffd315afa86c3228fdfb5ed45f3f652e1d4
GxDb
0
1426
2935
2851
2013-10-22T11:56:18Z
Ripp
1
wikitext
text/x-wiki
GxDb the ''Gene eXpression DataBase'' developed at IGBMC by Laëtitia Poidevin, Olivier Poch, Wolfgang Raffelsberger and Raymond Ripp
voir le wiki privé [http://lbgi.fr/lbgiki/index.php/GxDb http://lbgi.fr/lbgiki/index.php/GxDb]
See the [http://gx.lbgi.fr GxDb website]
==Aim of GxDb==
During the recent years gene expression profiling through transcriptomics has become an essential tool in many domains of research. This technique generates large quantities of data that may be exploited in many different ways allowing to reveal different aspects of the nature of the original data. The analysis and the meta- analysis of such data still remain quite laborious and often are not easily accessible to biologists. In this context, we develop an innovative platform, called GxDb, in order to offer an integrative tool for the analysis of transcriptomics data analysis. This platform is accessible through a secured web- portal and allows convenient upload of data, storage in a relational database and running many treatment and analysis procedures automatically. At the user interface, data query and analysis is greatly facilitated through the various modules and options for graphical display. GxDb clearly extends the opportunity to compare results from different treatment and analysis procedures (including human expert analysis) and/or different experiments. This also gives to the biologist tools for investigating and understanding the strengths and weaknesses of the data-treatments or combination thereof used during analysis, thus allowing to choose the best approach and tools for a given experimental question or a given gene.
==Public Datasets in GxDb==
* MouseGeneAtlasV3 High-throughput gene expression profiling has become an important tool for investigating transcriptional activity in a variety of biological samples. To date, the vast majority of these experiments have focused on specific biological processes and perturbations. Here, we profiled gene expression from a diverse array of normal tissues, organs, and cell lines in mice.
* HumanGeneAtlas The tissue-specific pattern of mRNA expression can indicate important clues about gene function. High-density oligonucleotide arrays offer the pportunity to examine patterns of gene expression on a genome scale. Toward this end, we have designed custom arrays that interrogate the expression of the vast majority of rotein-encoding human and mouse genes and have used them to profile a panel of 79 human and 61 mouse tissues. The resulting data set provides the expression patterns for housands of predicted genes, as well as known and poorly characterized genes, from mice and humans. We have explored this data set for global trends in gene expression, valuated commonly used lines of evidence in gene prediction methodologies, and investigated patterns indicative of chromosomal organization of transcription. We describe undreds of regions of correlated transcription and show that some are subject to both tissue and parental allele-specific expression, suggesting a link between spatial xpression and imprinting. Keywords: different tissues.
* ALL Gene expression profiles were examined in 33 adult patients with T-cell acute lymphocytic leukemia (T-ALL) different immunophenotypic characteristics: 1,T2,T3,T4 and Tnc(incomplete phenotype)
* HumanBreastCancer Human breast cancer cell line MCF-7 is usually sensitive to chemotherapy drug BMS-554417, an insulin receptor (IR) and insulin-like growth factor receptor (IGFR) inhibitor. However, through step-wise increase in BMS-554417 doses in culture media, we were able able to screen and select a single MCF-7 clone that is BMS-554417 resistant. It is cross resistant to BMS-536924. This new line of MCF-7 cells was named as MCF-7R4. The transcriptome profiling of both MCF-7 and MCF-7R4 was performed sing Affymetrix HG-U133 plus2.0 GeneChip arrays.
* HumanEmbryo The process of early development of mammals is subtly and accurately controlled by the regulation networks of embryo cells. Time course expression data measured at different stages during early embryo development process can give us valuable information by revealing the dynamic expression patterns of genes in genome wide scale. In this study, Human embryo expression data were generated at one cell stage, two cell stage, four cell stage, eight cell stage, morula, and blastocyst.
==Data processing==
Data obtained at the level of .CEL files are analysed with 6 different normalization softwares :
* RMA
* gcRMA
* dChip
* MAS5
* VSN
* Plier
using programs developped with the R statistical package (http://www.r-project.org) and Bioconductor.
R is an open platform for statistical computation and Bioconductor is a microarray data analysis in R.
All the experiments in GxDb are clustered using 3 clustering methods from the [[Cluspack]] package
* km_dpc K-means Density of Point Clustering
* mm_aic Mixure Model Akaike’s Information Criterion
* mm_bic Mixure Model Bayesian Information Criterion
==Architecture==
The website is powered by an Apache web server, PHP and Javascript for dynamic web pages and a PostgreSQL relational database as the backend to store data.
GxDb uses open-source tools.
85fc354cc14dd447aee124dd30c627efa3703b35
Main Page
0
1279
2936
2928
2013-10-22T15:52:29Z
Ripp
1
/* LBGI */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène polveche.helene@gmail.com
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ce02b618f6878c81957bec3d7711c8a559e6a4da
2937
2936
2013-10-22T15:53:54Z
Ripp
1
/* LBGI */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène polveche.helene@gmail.com
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
8c89f19a59c577d9ae7549a1331c69bf4f213725
2938
2937
2013-10-29T12:44:38Z
Wraff
5
/* People */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
cff3ab1bc0914deff793d9f0e09688974409361e
2962
2938
2014-04-04T20:35:54Z
Nguyen
15
/* Progiciels */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
59bb3250f0a6130f612bbecfdff8580ab5919e7d
ImAnno
0
1434
2939
2893
2013-11-26T09:13:23Z
Ripp
1
/* What about the images */
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the In Situ Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreatetissueFiles$organ
Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]).
505786621a7f74e09310fef933597723ac8555b5
2942
2939
2014-02-24T15:09:06Z
Ripp
1
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreatetissueFiles$organ
Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]).
c3478b913f18483ad55a977fd5e4c047bc80ffb3
2975
2942
2014-09-19T08:03:53Z
Ripp
1
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreatetissueFiles$organ
Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]).
==Images Illustrations Photos==
Especially for the Ear Raymond Romand took 11000 Microscope Images showing the gene expression.
The php programs refere to thes images through the coded directory ImAnno/Illustrations-$cadre-$organ
see
function IllustrationsDir ($cadre="", $organ="", $getWhat=""
and in /home/ripp/imanno/ImAnno we have the link
Illustrations-3-3 -> /genomics/link/ImagesRomand/Version2012/JPEG
8a59f8de40c5d6bd7e2b965a2e0daf8ade068fb2
2976
2975
2014-09-19T08:05:44Z
Ripp
1
/* Images Illustrations Photos */
wikitext
text/x-wiki
ImAnno is the Image Annotation Tool
==Definition==
''ImAnno'' is a web based annotation tool.
It allows the annotation of all kind of images, texts, "concepts" through a web interface.
<br/>
The annotations are stored in the relational database and can be retrieved and queried through a powerfull search engine.
==First Goal of ImAnno==
The first goal of ''ImAnno'' was to allow the annotation of thousands of the ''In Situ'' Hybridization images provided by [http://genepaint.org/ GenePaint] within the [http://www.eurexpress.org/ee/project/intro.html EurExpress project].
This annotation program is a part of the [http://www-genoret.u-strasbg.fr/genoret/ImAnno Genoret project developped by WP4]. See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=531 Poster of ImAnno] made by Laura Cammas for the Midterm Review Meeting 2007/03/18-21 in Paris
* [[ImAnno Standard Operation Procedure]]
* [[ImAnno Search Tool]]
* See the [http://www-genoret.u-strasbg.fr/genoret/Project/phrame.php?action=doShowOneDatafile&pk=909 Rapport de Stage] from Nicolas Eschbach
==What is stored==
One annotation is related to one or several images (or even something else).
The images are referenced by local or foreign http links.
These links are stored in the database and can be sorted manually.
The display of the image is made through these links using the "show image" button.
An annotation consists of several annotation fields :
<br/>
For each annotation field are defined
* a title
* 2 or more radio buttons with exclusive choice
* a keywords select field
* a freecomment field
The labels of the radio buttons and keywords can be specific to each field.
==What about the images==
In some cases the ImAnno annotation can be illustrated with images on which the annotation values are displayed through colors.
To create an ImAnno set of images :
# create a colored image with Powerpoint or Inkscape
# use the color ramp according to the tissue order (the fist one 0 is black)
# save the file as ImAnnoTissue-organ-body-show-600.png -300 -150
# remove the color ramp and save the same sizes with a yellow background
# run Execute.php?ImAnnoCreatetissueFiles$organ
Another interesting tools is [[DecoreTree]] allowing the annotation and coloration of the phylogenic trees created by the Itol tools ([http://itol.embl.fr http://itol.embl.fr]).
==Images Illustrations Photos==
Especially for the Ear Raymond Romand took 11000 Microscope Images showing the gene expression.
The php programs refere to thes images through the function IllustrationsDir
function IllustrationsDir ($cadre="", $organ="", $getWhat="")
is mainly the coded directory ImAnno/Illustrations-$cadre-$organ
and in /home/ripp/imanno/ImAnno we have the link (for Cadre=3 Organ=3)
Illustrations-3-3 -> /genomics/link/ImagesRomand/Version2012/JPEG
3d3e0c0e364134f12fb4aaa638854cdd5c5eb5dd
DecoreTree
0
1442
2940
2013-11-26T09:41:01Z
Ripp
1
New page: DecoreTree est un outil web quipermet l'annotation et la colorisation des arbres phylogéniques créés par Itol. ===Historique de la génèse de DecoreTree=== J'avais fait des arbres ave...
wikitext
text/x-wiki
DecoreTree est un outil web quipermet l'annotation et la colorisation des arbres phylogéniques créés par Itol.
===Historique de la génèse de DecoreTree===
J'avais fait des arbres avec Itol et je voulais les mettre en couleur ... Itol le permet mais ça ne marche pas bien, les fontes sont pas bonnes, etc.
Itol permet l'exportation et le rapatriement du fichier SVG contenant le dessin. J'ai commencé à bidouillé ce fichier pour pouvoir l'afficher correctement.
Puis j'ai développé des fonctions Javascript pour le faire à l'écran.
Au 26 novembre 2013 on en est à :
* un fichier decoretree_trululu.html contient les fonctions Javascript et le texte SVG décrivant l'arbre.
* je respecte à peu près l'arbre d'origine de Itol.
** il me semble que je modifie la première ligne ??? pour une histore de viewbox
** on peut aussi rajouter des images ou du texte (les heatmaps par exemple)
* à la fin il faut mettre la div de mise à hour et de coloration
il faudra modifier tout ça pour inclure un fichier itol .svg localisé ailleurs ...
A+
Raymond
e9635eb2fc2541b701d19fccffc556c53d889d00
2941
2940
2013-11-26T09:41:29Z
Ripp
1
wikitext
text/x-wiki
DecoreTree est un outil web qui permet l'annotation et la colorisation des arbres phylogéniques créés par Itol.
===Historique de la génèse de DecoreTree===
J'avais fait des arbres avec Itol et je voulais les mettre en couleur ... Itol le permet mais ça ne marche pas bien, les fontes sont pas bonnes, etc.
Itol permet l'exportation et le rapatriement du fichier SVG contenant le dessin. J'ai commencé à bidouillé ce fichier pour pouvoir l'afficher correctement.
Puis j'ai développé des fonctions Javascript pour le faire à l'écran.
Au 26 novembre 2013 on en est à :
* un fichier decoretree_trululu.html contient les fonctions Javascript et le texte SVG décrivant l'arbre.
* je respecte à peu près l'arbre d'origine de Itol.
** il me semble que je modifie la première ligne ??? pour une histore de viewbox
** on peut aussi rajouter des images ou du texte (les heatmaps par exemple)
* à la fin il faut mettre la div de mise à hour et de coloration
il faudra modifier tout ça pour inclure un fichier itol .svg localisé ailleurs ...
A+
Raymond
ce40d93b588a67d9ba960fb308931554af7824d0
ImAnno Search Tool
0
1437
2943
2875
2014-02-24T15:13:39Z
Ripp
1
wikitext
text/x-wiki
ImAnno provides a set of tools to query the database.
==ImAnno Search Tools==
Several searches can be done
===By GeneName, Freetext or SelectComments===
# search by GeneName. You get the corresponding AnnotAct
# Search in freetext and select comments
===With the Annotacts Search Tools===
# Go to the AnnotActs SearchTool clicking the button
# First, select some values to define your sieve (within one line we use the union operator)
# Select the AND or OR value to do an intersection or a union between lines
# Then click on '''Search''' to display the result
# Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future
# Click on '''See all sieves''' to view all stored sieves
** you can edit or delete your sieves
** check on the right side and click on the Correlation button to see the correlations between the seeves
===With the ImAnno PipeWork===
# With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger.
# It allows also to create Venn's Diagrams with [http://alnitak.u-strasbg.fr/lbgiki/index.php/DiaVenn DiaVenn]
* Query by Genename
* [[ImAnnoSieves]]
* [[ImAnnoDoOnList]]
* [[ImAnnoCluspack]]
50696cf89df11ccbb8362fea281041e3a9fb431d
2944
2943
2014-02-24T15:17:08Z
Ripp
1
wikitext
text/x-wiki
ImAnno provides a set of tools to query the database.
==ImAnno Search Tools==
Several searches can be done
===By GeneName, Freetext or SelectComments===
# search by GeneName. You get the corresponding AnnotAct
# Search in freetext and select comments
===With ImAnno Sieves===
# Go to the AnnotActs SearchTool clicking the button
# First, select some values to define your sieve (within one line we use the union operator)
# Select the AND or OR value to do an intersection or a union between lines
# Then click on '''Search''' to display the result
# Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future
# Click on '''See all sieves''' to view all stored sieves
** you can edit or delete your sieves
** check on the right side and click on the Correlation button to see the correlations between the seeves
===With the ImAnno PipeWork===
# With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger.
# It allows also to create Venn's Diagrams with [http://alnitak.u-strasbg.fr/lbgiki/index.php/DiaVenn DiaVenn]
c80641615ffd47aed1e709c62bd9d1a22223d24e
2945
2944
2014-02-24T15:21:46Z
Ripp
1
wikitext
text/x-wiki
ImAnno provides a set of tools to query the database.
==ImAnno Search Tools==
Several searches can be done
===By GeneName, Freetext or SelectComments===
# search by GeneName. You get the corresponding AnnotAct
# Search in freetext and select comments
===With ImAnno Sieves===
# Go to the AnnotActs SearchTool clicking the button
# First, select some values to define your sieve (within one line we use the union operator)
# Select the AND or OR value to do an intersection or a union between lines
# Then click on '''Search''' to display the result
# Click on '''Save''' to save your sieve in order to do the same Annotact Search in the future
# Click on '''See all sieves''' to view all stored sieves
** you can edit or delete your sieves
** check on the right side and click on the Correlation button to see the correlations between the seeves
===With the ImAnno PipeWork===
# With the ImAnnoEarGeneListsWithDiaVenn [[PipeWork]] you can mix lists from ImAnno, EGE (the Ear Gene Expression data from Sajan) and gene lists from external website such as Jax, ihr, Sanger.
# It allows also to create Venn's Diagrams with [http://www.lbgi.fr/lbgiki/index.php/DiaVenn DiaVenn]
6a60f97af31cfc21b0b928839e416a242fe5134c
BIRD Data Access Protocol
0
1396
2946
2867
2014-03-10T08:54:21Z
Nguyen
15
/* Simple Services-Bank ID */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get EST
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=gbest&accession=Cj133605&field=DE,OS,OC,TISSUE_TYPE,DEV_STAGE
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: in construction
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
464a1d575a5bdbc0c717ccbdeb09f366e811bc38
2947
2946
2014-03-10T08:55:32Z
Nguyen
15
/* Simple Services-Bank ID */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===WEB Server===
Beta version: in construction
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
315f037af784aa897d6074206931805c45f37dc0
2948
2947
2014-03-10T08:56:10Z
Nguyen
15
/* WEB Server */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
c3bf47c95860ae92aaac7081033a608296c08af1
2949
2948
2014-03-10T08:57:34Z
Nguyen
15
/* Simple Services-Bank ID */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Data Selection by [[BIRDQL]] Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
d12fe016aa65ce209ec8bd79bcb658cf17520092
2953
2949
2014-03-10T09:09:01Z
Nguyen
15
/* Data Selection by BIRDQL Service */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
28bd26564c79f746bcbfd843127d505fbbeb26a6
2954
2953
2014-03-10T09:09:26Z
Nguyen
15
/* BIRD Data Access Protocol */
wikitext
text/x-wiki
==BIRD Data Access Protocol==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
fe7522889df80ba7ea7865d26833715939244ff1
2955
2954
2014-03-10T09:11:52Z
Nguyen
15
/* BIRD Data Access Protocol */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
3ab8c76b62b0f0b40bade56f4210df3db454759d
2956
2955
2014-03-10T09:12:17Z
Nguyen
15
/* BIRD Data Access Protocol for Data-Intensive Applications */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications ==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB UniProt
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
38641746d397fa7963782be0acca3d9393a3bfe8
2957
2956
2014-03-10T09:16:18Z
Nguyen
15
/* API BIRD */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications ==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB MyBank
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB UNIPROT
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
33d57ece914c2f482978786b845a4209d520887c
2958
2957
2014-03-10T09:16:32Z
Nguyen
15
/* PhP */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications ==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB MyBank
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB MYBANK
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://decrypthon.u-strasbg.fr:8080/bird/bsearch";
String mybioql="ID * DB DB \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
17bbc80c4da04e4262e06a0812c4a8598bbd8710
2959
2958
2014-03-10T09:17:22Z
Nguyen
15
/* Java */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications ==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB MyBank
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://decrypthon.u-strasbg.fr:8080/bird/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB MYBANK
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://kbm.u-strasbg.fr:8080/birdsnp/bsearch";
String mybioql="ID * DB MyBANK \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
bf897128cbc8244d95a114f72b83c0060c902556
2960
2959
2014-03-10T09:17:41Z
Nguyen
15
/* PhP */
wikitext
text/x-wiki
==BIRD Data Access Protocol for Data-Intensive Applications ==
===Simple Services-Bank ID===
Service :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=<database>&accession=<ac or id>&field=<DE,OS..> &format=<fasta/flat>
Example 1: get dbsnp by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnp&accession=268
Example 2: get dbsnp genotype by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgt&accession=268
Example 3: get dbsnp genotype population by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtpop&accession=1371
Example 4: get dbsnp genotype individual by ID
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=dbsnpgtind&accession=867
Example 5: get RefSeq Protein
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=refseqp&accession=NP_001256133&format=fasta
Example 6: get Protein :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=uniprot&accession=Q23456
Example 7: get PDB :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS
Example 8: get Fasta :
http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?db=pdb&accession=1XDS&format=fasta
===Data Selection by [[BIRDQL]] Query Engine Service===
Data can also be selected with [[BIRDQL]] queries; Expert users can however modify queries by hand. Three query service are available:
# <source lang = bash>curl -F upload=@your_bird.ql 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql'</source>
# <source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=your_birdql</source>
#* Example:
#**<source lang = bash> http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "histone"--LM 10--FD AC,DE--FM FLAT</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM FASTA</source>
#**<source lang = bash>http://kbm.u-strasbg.fr:8080/birdsnp/bsearch?service=birdql&query=ID * DB Uniprot--WH DE contains "Helianthinin"--LM 10--FM JSON</source>
# BIRD-QL Editor (in pres).
#*User can use this engine for intensive computation, download [birdql cmd].
#*Till then you can test your queries on the star3-8 in the program /groupes/poch/dkieffer/test_tools/BirdClient/BirdConsole.sh ( or download [http://alnitak.u-strasbg.fr/~dkieffer/PublicDirectory/appli_java/BirdClient.tar.gz here]).
===API JAVA - BIRDQL Client===
The API is an Interface of programming which defines the way in which a data-processing component can communicate with another. The API Java of BIRD contains useful reusable classes by external modules of access to the databases. It has functions (methods) returning the data selected under various formats.
The user of high-level can use the API to develop new functionalities exploiting of the data. It can also be used to make personalized graphic interfaces and Web Services. The codes Java below illustrate the exploitation of BIRD API.
BIRDQL Engine doesn’t return data but just OIDs of selected records. The content of the record must then be searched by the API.
====API BIRD====
Import org.igbmc.bird.*
Class ExampleUtilisationAPI {
InterfactDB birddb = new InterfaceDB(“my-bird”)
// BIRD-QL
String birdql = ” ID * DB MyBank
--WH OS contains "Mus mus"
--WH OC contains "Eukaryota" & not "Metazoa"
--FM OID”
Vector OID=birddb.queryengine.run(birdql);
For { i=1 to OID.size() }
{ // result treatment
UniProt obj=(UniProt)birddb.getObject(OID[i]);
….
}
====PhP & Java Connection to BIRD HTTP Post ====
=====PhP=====
<?php
function executeBIRDQuery($params=array()) {
$data = http_build_query($params);
$targetWebserviceUrl = 'http://kbm.u-strasbg.fr:8080/birdsnp/bsearch';
$options = array('http' => array(
'user_agent' => 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.9) Gecko/20071025 Firefox/2.0.0.9', // who am i
'max_redirects' => 10, // stop after 10 redirects
'timeout' => 60, // timeout on response
'method' => 'POST',
'header' => "Content-type: application/x-www-form-urlencoded\r\n"
."Content-Length: " . strlen($data) . "\r\n",
'content' => $data
));
$context = stream_context_create($options);
return file_get_contents($targetWebserviceUrl, false, $context);
}
$bql = <<<EOT
ID * DB MYBANK
WH TEXT CONTAINS "polymerase"
LM 10
FM FASTA
EOT;
echo executeBIRDQuery(array('service'=>'birdql','query'=>$bql));
?>
=====Java=====
/** download httpclient from http://hc.apache.org/downloads.cgi**/
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
//bird server
String url = "http://kbm.u-strasbg.fr:8080/birdsnp/bsearch";
String mybioql="ID * DB MyBANK \n" +
"WH TEXT CONTAINS \"DMD\" \n"+
"LM 100 \n"+
"FM FASTA \n";
PostMethod postMethod = new PostMethod(url);
client.setConnectionTimeout(300);
// post parameters: service="birdql" & query="...."
postMethod.addParameter("service","birdql");
postMethod.addParameter("query",mybioql);
// running birdql query
int statusCode1 = client.executeMethod(postMethod);
// get results
String result= postMethod.getResponseBodyAsString();
postMethod.releaseConnection();
====BirdHttpClient====
A fonctional API to use Bird with Java by HTTP. Available by subversion in svn/dkieffer/BirdHTTPClient. Or download beta version [http://alnitak.u-strasbg.fr/~dkieffer/Librairie/BirdHttpClient.zip here].
[[Category:Bird_project]]
5dd632887d2159d783283111d9da28291a082602
BIRDQL
0
1395
2950
2874
2014-03-10T09:02:13Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Examples below also show how to use the BIRD-QL syntax.
'''Example ''': simple query, Full Text search
ID * DB MSV3d
WH TEXT contains "DMD"
FD ID
LM 100
FM FASTA
Result
//
'''Example ''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
e15fe8e6396fb68e98ba7744ee03c508d72ac246
2951
2950
2014-03-10T09:02:30Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Examples below also show how to use the BIRD-QL syntax.
'''Example ''': simple query, Full Text search
ID * DB MSV3d
WH TEXT contains "DMD"
FD ID
LM 100
FM FASTA
Result
//
'''Example ''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
d63ecc47787dd068ee7683f84bb060a070953dd5
2952
2951
2014-03-10T09:04:26Z
Nguyen
15
/* BIRDQL example */
wikitext
text/x-wiki
==[[BIRDQL]] Biological Query Language ==
===BIRDQL in few words===
This query language is conceived by Hoan Nguyen[http://lbgi.igbmc.fr/~nguyen/].
The heterogeneous data integrated in integrator system or [[BIRD]] System are represented by several relational tables. The exploitation of these data by SQL queries is not obvious except for developers or computer scientist experts.
Building queries with SQL in this context is not easy with because that requires to use joins (terme technique) to select data in multiple tables. This complexity must be hidden by HTML forms but a lot of queries can not be setup with HTML forms.
We proposes own query language (BIRDQL), there is new standard biological query language allowing the biologist or clinician to create data retrieval protocols without exhaustive knowledge of the data sources and their architecture. BIRD System is driven with a high level query engine: BIRDQL, which makes it possible for biologists to express easily queries and to extract knowledge by classical constraints and scientific functions (StructuralDistance,SequencePattern,AssociationRule...).
BIRDQL in not a mathematically complete language but indeed an idiom adpated to the GUI, human readable enough to be modified by hand. The construction of this BIRDQL query engine was used some main idea from SaadaQL [http://amwdb.u-strasbg.fr/saada/spip.php?article52]. SaadaQL query language was developed in the framework of my PhD ( Astrophysics & Virtual Observatory ,2002-2005) at university of Strasbourg.
Data can be selected with [[BIRD Data Access Protocol]]
===BIRDQL Grammar ===
ID <list of id/ac/query_id > DB [[Bird_Databases_List | <bank names>]]
WH [http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all <Field>] Contains <(kw1 & kw2) | kw_n>
WH PATTERN <function SequencePattern() >
WH PATTERN <function DiagonalMolecule()>
WH PATTERN <function InteractionProtein()>
WH PATTERN <function AssociationRule()>
WH SQLNative select from ...
FD <[http://bird.u-strasbg.fr:8080/bird/bsearch?service=metadata&db=all Field out1,Field out2,...] / GET_COUNT/GET_DR(bankname)>
OF <OFFSET, Default OF=0>
LM <number of maximum display>
FM <Fasta/Flat/Xml/CSV/Simple/Object/OID>
[[Image:birdoverivew.jpg]]
===BIRDQL example===
Data can be selected with [[BIRD Data Access Protocol]]
Examples below also show how to use the BIRD-QL syntax.
'''Example ''': simple query, Full Text search
ID * DB MSV3d (Missense Variant Database)
WH TEXT contains "DMD"
FD ID
LM 100
FM JSON
Result
//
'''Example ''': simple query, search and fasta format generation
ID * DB UNIPROT
WH TEXT contains "synthetase" & "tyrosyl" & not ("homo sapiens" & "human")
FD AC, ID,DE,OX,SQ
LM 100
FM FASTA
Result
>Q92PK5 | SYY_RHIME | Tyrosyl-tRNA synthetase (EC 6.1.1.1) (Tyrosine--tRNA ligase) (TyrRS). | 382
MSEFKSDFLHTLSERGFIHQTSDDAGLDQLFRTETVTAYIGFDPTAASLHAGGLIQIMMLHWLQATGHRPISLMGGGTGMVGDPSFKDEARQLMTPETI...
//
'''Example ''': DBSNP
'''Example ''':
get DBSNP in XML by ID
//
ID 268 DB DBSNP
find snp by position
//
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch3.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=30466018] ' passing text as "i")
LM 1000
FM FLAT
'''Example ''': find snp by position
ID * DB DBSNP
WH SQLNative select id from dbsnp_ds_ch18.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt>=30466000 and @physMapInt<=30466200 ] ' passing text as "i")
FM FLAT
//
'''Example ''': find snp by position and reference sequence (GRCh37.p5)
ID * DB DBSNP
WH SQLNative Select ID from dbsnp_ds_ch8.fulltext where XMLEXISTS('$i/Rs/Assembly/Component/MapLoc[@physMapInt=19817621 and ../../@groupLabel="GRCh37.p5"] ' passing text as "i")
FM FLAT
//
//
ID * DB UNIPROT
WH TEXT contains "histone" & not "homo sapiens"
FD AC,DE,OS
LM 3
FM FLAT
//
ID * DB UNIPROT
WH TEXT contains not "homo sapiens"
FD AC,DE,OS
LM 3
'''Example 2''': complex query, GBFULL=EST+ WGS +Release +New
ID * DB GBFULL
WH OC Contains "Eukaryote"
WH DR Contains "GO"
WH GENE contains "GF100027"
FM FASTA
The query above allow to search in Genbank full, the Eucaryotic sequences containing the GF100027 gene with a cross reference in GeneOntology.
'''Example 3''': mining in GENBANK EST
ID * DB GBEST
WH TISSUE_TYPE contains "retina"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 4''': Mining in GENBANK EST
ID CJ133635,CJ133593,CJ133659 DB GBEST
WH DE contains "AMINOTRANSFERASE"
WH OC contains "Eukaryota" & not "Metazoa"
WH TISSUE_TYPE contains "retina"
FD AC,DE,OX,OC,tissue_type,dev_stage,chr
FM FLAT
'''Example 5''': Mining in EST
ID * DB GBEST
WH TISSUE_TYPE contains "colon"
WH DEV_STAGE contains "adult"
LM 100
FD AC,DE,OX,OC,tissue_type,dev_stage,chr,os
FM FLAT
'''Example 6''': Mining In PDB
ID * DB PDB
WH TEXT contains "DMD" & "ERYTHRINA CORALLODENDRON"
LM 10
FM FASTA
//
ID * DB PDB
WH TEXT contains "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM FASTA
//
ID * DB PDB
WH TEXT "METAL BINDING PROTEIN" & "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FUZZY 100
LM 100
FM SIMPLE
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
LM 10
FM FLAT
//
ID * DB PDB
WH CL contains "METAL BINDING PROTEIN"
WH DE contains "LACTOFERRIN"
WH FUNCTION Diagnonal3D()>125
FD GET_COUNT
FM FLAT
'''Example 7''': Get GENE ONTOLOGY or DBREF
ID Q32437 DB UNIPROT
FD AC,DR(GO)
//
ID Q34215 DB UNIPROT
FD AC,DR(InterPro)
>>Result:
AC Q32437;
DR GO; GO:0009507; C:chloroplast; IEA:InterPro.
DR GO; GO:0016021; C:integral to membrane; IEA:UniProtKB-KW.
......
//
AC Q34215;
DR Pfam; PF00033; Cytochrom_B_N; 1.
[[Category:Bird_project]]
261095fe2d29c59342aad144fe3c1e7240a0e3e9
NeoPipe
0
1443
2961
2014-04-04T14:58:18Z
Nguyen
15
New page: NeoPipe
wikitext
text/x-wiki
NeoPipe
fc64df4d792c04ec3f4eb612f28a9a99ef0c3e21
Neopipe
0
1444
2963
2014-04-04T20:36:05Z
Nguyen
15
New page: Neopipe
wikitext
text/x-wiki
Neopipe
a3eeb0c9473e3a04e6b8ae8c606fc0df325962f6
2964
2963
2014-04-08T09:52:18Z
Nguyen
15
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : LBGI-IGBMC
*'''Crédits''' : FRISBIS/INSTRUCT
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
4724b19bbd77417fec6d2f94b7e03a4a55f484bc
2965
2964
2014-04-08T14:34:52Z
Nguyen
15
/* Informations */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : LBGI(ICUBE)-Integrated structural Biology(IGBMC)
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
bc29ffc84691164ee6d81c9e33fcba7d33d3af90
2966
2965
2014-04-08T14:35:22Z
Nguyen
15
/* Informations */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen-Integrated structural Biology(IGBMC)
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
12146314b8cac8e852b633ebe7b0a0e756ee3963
2967
2966
2014-04-08T14:35:44Z
Nguyen
15
/* Informations */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI(ICUBE); Integrated structural Biology(IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
c965d09cb4be291a6e21210fe4b6da6198e20272
2968
2967
2014-04-09T21:37:52Z
Ripp
1
/* Informations */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI(ICUBE); Integrated Structural Biology(IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
b313ff2d8136569a475c284d5fe9d62e9ddd4d0a
2969
2968
2014-04-09T21:38:41Z
Ripp
1
/* Informations */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser le NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
6ce7192841b15f1255defeb42610899426e67de8
2970
2969
2014-04-09T21:39:08Z
Ripp
1
/* Dépendances */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
b59499297ccf3bb402482ce44c951ae088df0bed
2971
2970
2014-04-09T21:40:16Z
Ripp
1
/* Installation */
wikitext
text/x-wiki
Le NeoPipe est uniquement installé sur '''studio''' pour le moment.
=Informations=
*'''Nom''' : NeoPipe
*'''Description''' : A new toolkit for protein family analysis
*'''Développeur''' : Vincent Walter
*'''Architecte/Project Manager''' : Hoan Nguyen
*'''Crédits''' : FRISBI/INSTRUCT
*'''copyright''' : LBGI (ICUBE); Integrated Structural Biology (IGBMC)
*'''Dernière version''' : 1.0.0
*'''Date de dernière version''' : 11.02.2014
*'''Langage de programmation et Framework''' : Java 7, JBOSS jBPM
*'''Environnement''' : Linux (Debian-based)
*'''Langue''' : Anglais / Français
*'''Type''' : Bioinformatique
=Installation=
==Dépendances==
Pour pouvoir utiliser NeoPipe il faut télécharger et/ou installer un certain nombre de programmes :
Pour la recherche de protéines homologues :
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download BLAST+]
Pour les alignements :
* [[PyBallast]]
* DbClustal
* [http://www.clustal.org/omega/#Download Clustal Ω 1.2+]
* [http://msa.sbc.su.se/cgi-bin/msa.cgi KAlign 1.04+]
* [http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD TCoffee 10.00+]
* [http://mafft.cbrc.jp/alignment/software/ MAFFT 7+]
Pour la correction d'alignements :
* [[Rascal]]
* [[Leon]]
Pour évaluer la qualité de l'alignement :
* [[NorMD]]
Pour le clustering et annotations d'alignements :
* [[Cluspack]]
* [[Macsim]]
'''''S'assurer que chacun de ces produits soient fonctionnels avant de continuer.'''''
==Installation==
Pour installer le NeoPipe, il suffit de déployer l'archive .jar et son launcher. Les librairies nécessaires au fonctionnement du NeoPipe sont embarquées dans l'archive.
Pour pouvoir s'exécuter, il faudra que '''Java 7''' (ou version ultérieure) soit installée sur le serveur.
Le programme est installé sur le serveur et peut-être utilisé avec la commande '''neopipe''' directement accessible (de n'importe où)
=Configuration=
La configuration par défaut se trouve à l'emplacement '''/etc/lbgi/neopipe/'''.
Si l'option '''-c''' / '''--confdir''' n'est pas renseignée, la configuration par défaut du pipe sera utilisée : '''/etc/lbgi/neopipe/'''
Si vous voulez customiser l'installation, il vous faudra copier l'ensemble de la configuration dans un répertoire
<pre>
mkdir ~/neopipeconf
cp -r /etc/lbgi/neopipe ~/neopipeconf
</pre>
Puis modifier les paramètres d’exécution pour les différents programmes.
Les options définies dans '''/etc/lbgi/''' sont prioritaires et écrasent les paramètres de l'utilisateur (permet de poser des restrictions, comme pour le nombre de threads)
'''Si des options ne sont pas implémentées sur certains programmes et que vous voulez les utiliser : me contacter (v.walter@unistra.fr)'''
=Exécution=
==Options==
{|class="wikitable sortable centre" style="text-align:center;"
! width="15%" | Mot
! width="15%" | Lettre
! width="15%" | Type
! width="60%" | Description
|-
| --confdir || -c || Path || Le repertoire contenant les fichiers de configuration pour les differents noeuds du NeoPipe
|-
| --input || -i || Path || Le fichier d'entree du NeoPipe (au format Fasta ou MSF)
|-
| --project || -p || String || Le nom du projet associe à l'analyse
|-
| --type || -t || String || Type d'analyse (alignement, annotations, structure)
|-
| --reference || -r || String || Le nom de la sequence de reference necessaire pour differentes etapes du NeoPipe
|-
| --outdir || -o || Path || Le repertoire ou seront enregistres tous les fichiers generes par les differentes noeuds du NeoPipe
|-
| --mail || -m || Mail || L'adresse mail a laquelle renvoyer l'ensemble des fichiers generes par les differents noeuds du NeoPipe
|-
| --alignment || -a || String || Permet de choisir le programme d'alignement. Valeurs autorisées : clustalo, dbclustal, kalign, mafft, tcoffee
|-
| --compress || -z || String || Le format de compression utilise pour creer l'archive envoyee par mail
|-
| --set || -s || boolean || Execute un pipe par proteine (dans le cas d'un Fasta multi-sequences)
|-
| --overwrite || -w || boolean || Ecrase les fichiers si ils existent déjà.
|-
| --help || -h || boolean || Affiche l'aide
|}
Certaines de ces options ne sont pas encore complètement fonctionnelles :
* '''''--compress''''' : seule l'option zip est disponible pour le moment
* '''''--overwrite''''' : n'écrase pas les documents s'ils existent (sortie de Blast uniquement) et passe directement à l'étape suivante
* '''''--mail''''' : ne fonctionne que pour des résultats de petits volumes (<10Mo et non répétés), il faut d'abord que je fasse sauter les limitations "spam" de la boite mail utilisée pour l'envoi (neopipe@outlook.com)
* '''''--type''''' : n'effectue que le type annotations c'est-à-dire de Blast à Macsim (par défaut)
D'autres ne sont pas implémentées :
* '''''--set'''''
==Exemples==
<pre>
neopipe --confdir <config_dir> --input <fichier_fasta> --output <output_dir> --alignment kalign --p <project_name> --compress zip
neopipe -c <config_dir> -i <fichier_fasta> -o <output_dir> -a kalign -p <project_name> -z zip -a
</pre>
=Correction de bugs=
Si vous avez une erreur, envoyez moi
* la ligne de commande entrée
* le message d'erreur complet affiché dans la console
* le fichier fasta soumis
26f9701fbfb8bcd40cf302a80fcda886e8b8269f
Gscope
0
1287
2972
2757
2014-06-19T15:48:06Z
Ripp
1
/* Normal usage with setgscoperr */
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
e79f40352b8560a6ef143974595e66a6ae7253fd
2973
2972
2014-07-01T13:44:30Z
Ripp
1
/* You can run gscope without setgscoperr */
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
e44d3adae1a65f98400a838b202671db496e9040
2974
2973
2014-07-01T13:44:58Z
Ripp
1
/* You can run gscope without setgscoperr */
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
34339fb98fcedd859912696af785f1af0e234195
Café des sciences
0
1322
2977
2821
2014-11-28T18:00:38Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis 1999.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://www-bio3d-igbmc.u-strasbg.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
8c9bc6b838736bd777a1ed9e489d3602a9c79280
Raymond Ripp
0
1334
2978
2729
2014-12-01T14:57:45Z
Ripp
1
wikitext
text/x-wiki
Bonjour,
voir aussi mon [http://www-bio3d-igbmc.u-strasbg.fr/~ripp site bio3d] et mon [http://lbgi.igbmc.fr/~ripp site lbgi]
Je suis Ingénieur de Recherche CNRS,
membre du LBGI BioInformatique et Génomique Intégratives [[LBGI]], équipe BFO ICube
et aussi membre
du Départment de Biologie et Génomique Structurales [[DBGS]],
de l'Institut de Génétique et de Biologie Moléculaire et Cellulaire [[IGBMC]]
b4bda502fb0005e09edbe11710284757d0a865a0
Gscope Procedures
0
1418
2979
2811
2014-12-06T10:35:57Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
51c6851152d103f2ac9c67dd8d4bb2f4a0a8e8cf
2980
2979
2014-12-06T13:49:13Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
68a4f44a78f9195a017ec5ee8f1ec3e62a46ea2a
2981
2980
2014-12-06T13:51:17Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
8def21c33007e6e6c56e952bd1962976ced92a6c
2982
2981
2014-12-06T14:25:02Z
Ripp
1
/* GO */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
2915d44509f045a698bc992526cd047dec21d065
Gscope Procedures
0
1418
2983
2982
2014-12-06T14:25:32Z
Ripp
1
/* proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown} */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
ff1b131037dfbf1d59edd006dd5286e675449d31
2987
2983
2016-01-21T14:11:13Z
Ripp
1
/* proc StringInteractome */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsims==
With FromMacsims you can query any information from a Macsims XML file
FromMacsim /path/to/the/macsim.xml arg2 ar3
FromMacsims without any argument gives you a help as follow
#rR FromMacsims permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsims FichierMacsims ListOfList
#rR FromMacsims FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un PRojet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsims CIL006 ListOfList
#rR FromMacsims CIL006 AlnName
#rR FromMacsims CIL006 LNOrdali
#rR FromMacsims CIL006 ListOfList
#rR FromMacsims CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsims CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsims CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsims CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsims CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsims CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsims CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsims /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsims ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
7131327c1e768b410fbfac6758183107b335fa9c
2988
2987
2016-01-21T14:14:38Z
Ripp
1
/* proc FromMacsims */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsims==
With FromMacsims you can query any information from a Macsims XML file
FromMacsim /path/to/the/macsim.xml arg2 ar3
FromMAcsims can be called
* within Gscope
* with QuestionDeScicence (from any language i.e. python, etc.)
* from the web
FromMacsims without any argument gives you a help as follow
#rR FromMacsims permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsims FichierMacsims ListOfList
#rR FromMacsims FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un PRojet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsims CIL006 ListOfList
#rR FromMacsims CIL006 AlnName
#rR FromMacsims CIL006 LNOrdali
#rR FromMacsims CIL006 ListOfList
#rR FromMacsims CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsims CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsims CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsims CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsims CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsims CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsims CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsims /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsims ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
6a6f667ca2503c1f4a02abb424d41681939455b6
2993
2988
2016-04-06T08:15:32Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsim==
attention FromMacsim witout S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim /path/to/the/macsim.xml arg2 ar3
FromMacsim can be called
* within Gscope
* with QuestionDeScicence (from any language i.e. python, etc.)
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
d785d2cfa73934ad909862997355f6f3ef489783
2994
2993
2016-04-06T09:20:55Z
Ripp
1
/* proc FromMacsim */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsim==
attention FromMacsim witout S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
ebd569b02f0e2487ba146d5d28929f8abd1df89b
2995
2994
2016-04-06T09:21:59Z
Ripp
1
/* proc FromMacsim */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsim==
attention FromMacsim witout S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
b9ce374af73d1c4fc007b79ade507556f486b050
2996
2995
2017-09-25T17:54:05Z
Ripp
1
/* proc FromMacsim */
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
7f235684558795aa12f610be09de525832ceba14
3022
2996
2018-01-10T10:10:46Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of BigZips
BoutADNDeUcsc List of BigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 BigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 BigZips
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
29577343109b1e9e89dbf0307f20b63ac797a11d
3023
3022
2018-01-10T10:53:08Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta - Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta - Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
f95f76560402b1f51625c2eb4aad26c59d2ffcd9
3024
3023
2018-01-10T10:59:36Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
cbf6ac793cb721f2699b9ea87e58d4ab83bbb7f7
3029
3024
2018-01-23T09:40:44Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
===GeneNames===
Gscope knows a lot about [[GeneNames]]
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
804906fd0a4dbd5ac76e464fbf761b72cb0b472f
3030
3029
2018-01-23T09:41:08Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
==GeneNames==
Gscope knows a lot about [[GeneNames]]
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
68b03214f1857f02187cfda7f62419579afa96bf
Main Page
0
1279
2984
2962
2015-08-26T14:45:00Z
Ripp
1
/* Thématiques et Projets */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
* [[AlAnnot]] on va Annoteer des ALignements
* [[Wali]] Visualisation des alignement et des Macsims sour le Web
* [[OlymClade]] les Olympiades des Clades dasn Gscope pour CilioCarta
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
64ed6b902718eb6b9a41c3ede45129ecddb09322
2989
2984
2016-02-07T15:07:42Z
Ripp
1
/* LBGI */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
* [[AlAnnot]] on va Annoteer des ALignements
* [[Wali]] Visualisation des alignement et des Macsims sour le Web
* [[OlymClade]] les Olympiades des Clades dasn Gscope pour CilioCarta
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
da5613f2741626c3fbbb06fdfab96afdfa3bd0dd
2990
2989
2016-02-07T15:08:19Z
Ripp
1
Reverted edits by [[Special:Contributions/Ripp|Ripp]] ([[User talk:Ripp|Talk]]); changed back to last version by [[User:Nguyen|Nguyen]]
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
59bb3250f0a6130f612bbecfdff8580ab5919e7d
2991
2990
2016-02-07T15:09:30Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://biplan/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://biplan/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
9b50de96f6745b2afc59048893dd6a066787ef14
2992
2991
2016-04-05T11:54:35Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==People==
To be sure to have the '''up to date list''' see [http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi MailLbgi]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=mail mail only]
or
[http://www.lbgi.fr/fed/phpRR/lance.php?action=RrFun::MailLbgi&qui=ListOf&quoi=pn firstname name]
* ALLOT Alexis allot@unistra.fr
* BERMEJO-DAS-NEVES Carlos carlos.bermejo-das-neves@etu.unistra.fr
* CHENNEN Kirsley kchennen@unistra.fr
* LECOMPTE Odile odile.lecompte@unistra.fr
* MOULINIER Luc luc.moulinier@unistra.fr
* MULLER Jean jeanmuller@unistra.fr
* NEY Anne anne.ney@unistra.fr
* NGUYEN Hoan ngochoannguyen@unistra.fr
* POCH Olivier olivier.poch@unistra.fr
* POIDEVIN Laetitia l.poidevin@unistra.fr
* POLVECHE Hélène hpolveche@unistra.fr
* RAFFELSBERGER Wolfgang w.raffelsberger@unistra.fr
* RIPP Raymond raymond.ripp@unistra.fr
* THOMPSON Julie thompson@unistra.fr
* VANHOUTREVE Renaud renaud.vanhoutreve@etu.unistra.fr
* WALTER Vincent v.walter@unistra.fr
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
59bb3250f0a6130f612bbecfdff8580ab5919e7d
3025
2992
2018-01-11T09:02:55Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]] sur Ouragan ou autre ...
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
5699213a648bcf0c9282d56cd16d08f256659fbc
Wali
0
1445
2985
2015-08-26T15:20:42Z
Ripp
1
New page: Wali '''W'''eb '''ALI'''gnement visualizer [http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali] ==Cahier des charges== * Le but premier est d'afficher sur le WEB les features de Macsims...
wikitext
text/x-wiki
Wali '''W'''eb '''ALI'''gnement visualizer
[http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali]
==Cahier des charges==
* Le but premier est d'afficher sur le WEB les features de Macsims.
* Il s'agit d'avoir (à la Ordali) une fenêtre pour les noms et taxonomies des séquences et, à côté, bien en parallèle, la fenêtre avec les séquences sur lesquelles on peut allumer et éteindre les features en appuyant sur le bon bouton (boutons qui se créent automatiquement en fonction des features présentes).
* Les features sont des div mises bout à bout en horizontales mais qui peuvent aussi se superposer.
* Pour le moment on interroge la procédure gscope DessineMoiUnRSF Macsim.rsf (faudrait l'étendre au fichier Macsim.xml sans avoir à faire la conversion)
* Dans le cas de CilioCarta où l'on dispose du BilanCilio on aura sur la taxonomie les couleurs relatives au bilan.
* Dans la partie gauche on peut selectionner les séquences que l'on peut couper pour les placer ailleurs (après la ligne sélectionnée ou en début si pas de sélection). On peut aussi les faire disparître pour la session en cours ... mais attetionelles ne seront alors plus récupérables sans recharger.
==Architecture et programmation==
Ma première utilisation de Rivet !
440a95d3196d76a1c9726ee06ce73ee85a5ac8e9
2986
2985
2015-08-26T15:36:05Z
Ripp
1
wikitext
text/x-wiki
Wali '''W'''eb '''ALI'''gnement visualizer
[http://lbgi.fr/wali/wali http://lbgi.fr/wali/wali]
==Cahier des charges==
* Le but premier est d'afficher sur le WEB les features de Macsims.
* Il s'agit d'avoir (à la Ordali) une fenêtre pour les noms et taxonomies des séquences et, à côté, bien en parallèle, la fenêtre avec les séquences sur lesquelles on peut allumer et éteindre les features en appuyant sur le bon bouton (boutons qui se créent automatiquement en fonction des features présentes).
* Les features sont des div mises bout à bout en horizontales mais qui peuvent aussi se superposer.
* Pour le moment on interroge la procédure gscope DessineMoiUnRSF Macsim.rsf (faudrait l'étendre au fichier Macsim.xml sans avoir à faire la conversion)
* Dans le cas de CilioCarta où l'on dispose du BilanCilio on aura sur la taxonomie les couleurs relatives au bilan.
* Dans la partie gauche on peut selectionner les séquences que l'on peut couper pour les placer ailleurs (après la ligne sélectionnée ou en début si pas de sélection). On peut aussi les faire disparître pour la session en cours ... mais attention elles ne seront alors plus récupérables sans recharger.
==Architecture et programmation==
Ma première utilisation de Rivet !
* Voici le fichier .htaccess qui se trouve dans le répertoire racine de wali
<source lang='html4strict'>
<IfModule mod_rewrite.c>
Options -MultiViews
RewriteEngine On
RewriteBase /wali
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^(.*) wali.rvt?do=$1
</IfModule>
</source>
Il dit que tout ce qui arrive en /wali''abcdxyz'' doit se réécrire /wali/wali.rvt?do=''abcdxyz'' ceci permet de toujours passer par le même wali.rvt
* Le script wali.rvt traite les arguments et évalue ce qu'il faut. Pour plus de détails voir le [http://lbgi.fr/wikili/wali wiki privé]
5771bb37a84ed7d9e0d26acc1831084cb1361c84
Gscope
0
1287
2997
2974
2017-11-13T12:34:13Z
Ripp
1
/* Normal usage with setgscoperr */
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
a54cb5887444ee435ff31200297dbef31d1bf56a
3026
2997
2018-01-23T09:38:06Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
7c064cf339f01ef0bc1fb7adcc3cec03e6a39b39
3027
3026
2018-01-23T09:38:34Z
Ripp
1
wikitext
text/x-wiki
New : Gscope knows a lot about [[GeneNames]]
Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
f96bf1365ab59f18501467ad4938a9ef3e7ed285
3028
3027
2018-01-23T09:39:42Z
Ripp
1
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
* Please visit also the private Wiki [http://lbgi.igbmc.fr/lbgiki/index.php/GDP Gscope Documentation Project]
* [[Gscope Procedures]]
* [[GscopeSql]] how to access our postgresql and mysql databases
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
4db001ac3f463383df8a67d244cf259cda95e7a5
3033
3028
2018-01-23T19:31:46Z
Ripp
1
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
===Gscope Proceures===
See some very important [[Gscope Procedures]]
===GscopeSql===
* [[GscopeSql]] how to access our postgresql, mysql and sqlite databases
===Gscope Documentatiopn Project (from Benjamin Linard)===
* Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
c1b8afc86ec93ccc992a28c2b71ed1937f544a0b
3034
3033
2018-01-23T19:32:47Z
Ripp
1
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
===Gscope Proceures===
See some very important [[Gscope Procedures]]
===GscopeSql===
* [[GscopeSql]] how to access our postgresql, mysql and sqlite databases
===Gscope Documentatiopn Project (from Benjamin Linard)===
* Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
581de2921ba7190cf2e32b76031f36e2155cd7d7
Architecture of Gscope
0
1328
2998
1727
2017-11-13T12:43:38Z
Ripp
1
/* Gscope from the begining */
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tied to find the function of each protein.
For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and mutilple alignments.
bf6b284e9c73bef5a7e0ec7d0c1795a68db8cd6c
2999
2998
2017-11-13T13:08:54Z
Ripp
1
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and multiple alignments.
[[images:GscopeBoard.png]]
1341bf5351201741cb82411072f74c4c4d7f95cb
3003
2999
2017-11-13T13:20:04Z
Ripp
1
/* Gscope from the begining */
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualisation tool allowing to show the sequences, blast outputs and multiple alignments.
[[Images:GscopeBoard.png]]
e61f1b233813772e9669546bacea6b243d899c97
3004
3003
2017-11-13T16:46:46Z
Ripp
1
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs and multiple alignments.
[[Images:GscopeBoard.png]]
The Pabyssi gscope project handles ids PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
So since Pabyssi I didn't change the name of this central procedure ...
6a89be2163e95e649596eca664635ca16f861338
3005
3004
2017-11-13T16:47:57Z
Ripp
1
/* Gscope from the begining */
wikitext
text/x-wiki
The Architecture of Gscope is ... not perfect.
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
The Pabyssi gscope project handles ids PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
So since Pabyssi I didn't change the name of this central procedure ...
b7f68b99ec08dfbfc104602896a6d2e32fd9fb07
3006
3005
2017-11-13T16:59:01Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===ListeDesPABs===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi)
Each one has an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
So since Pabyssi I didn't change the name of this central procedure ...
4b699a5c7917fd98de7fc8099c8f8b1a32c79448
3007
3006
2017-11-13T17:00:54Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===ListeDesPABs===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and I wxas never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one has an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
So since Pabyssi I didn't change the name of this central procedure ...
8a3fa508d7f72c5b8c80a0bef6723c367668a238
3008
3007
2017-11-13T17:03:45Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===ListeDesPABs===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
So since Pabyssi I didn't change the name of this central procedure ...
36ba202f9611a58e072face0c81a139a069d4d39
3009
3008
2018-01-08T10:22:05Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===ListeDesPABs===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
67a249ce27a8264e9fe91c197e21cbcd4f72d2dd
3010
3009
2018-01-08T16:10:19Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
In that directory you'll find the directories
* prottfa
* protembl
===ListeDesPABs===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
0cd71505ff707e4955597c906eea58a0ca8f0090
3011
3010
2018-01-08T16:28:24Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===PAB===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a prefix (ex. PAB oe BOX or EHomsa) and a 1, 2, 3 4, .. digits PAB0001 EHoma12345
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
In that directory you'll find the directories
* nuctfa a fasta file for each nucleic sequence
* nucembl a embl
* prottfa a fasta file for each protein PAB
* protembl a embl
0d241cac33ce214f290d6319a1962bf0175bba50
3012
3011
2018-01-08T16:44:02Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===PAB===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB oe BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number PAB0001 EHoma12345
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containting the default correspondin information '''BUT''' we coulmd imagine to create different blast for different datbases. In that case we culd have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
0523e6378944e3684f13355b047c4e66bc108578
3013
3012
2018-01-08T17:09:22Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
===PAB===
The Pabyssi gscope project handles DNA and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB oe BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number PAB0001 EHoma12345
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the intersting complete genomes (mainly an empty list)
b01ef814a852df231c83c1d667c8159a40ac50ac
3014
3013
2018-01-08T18:44:18Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the intersting complete genomes (mainly an empty list)
e41bc3fce844bb6c528f7869792e07d7b7295ea7
3015
3014
2018-01-08T18:57:48Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
95bf3c47b7cd265b7a4ffdb1a08672f9d7949c03
3016
3015
2018-01-08T18:58:11Z
Ripp
1
/* MUST BE THERE */
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
1e9c6ffa0a18ec8acc97ed0e6432ba8ad3d57546
3017
3016
2018-01-08T19:04:58Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names.
Notice also that the project name can be different from the prefix ...
The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do
setgscoperr MyNewPro
7d82c6726b5f8e5e234da354b85776016d83f0c1
3018
3017
2018-01-08T19:05:50Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomasa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==FOLLOWING FILES MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names.
Notice also that the project name can be different from the prefix ...
The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do
setgscoperr MyNewProj
b167d71e1a2c034a912356147e4f394481cf2c8d
3019
3018
2018-01-08T19:08:41Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all this ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==FOLLOWING FILES MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names.
Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...)
The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do
setgscoperr MyNewProj
1c11dc76113320425ee8520c13cfcc760a30d704
3020
3019
2018-01-08T19:09:21Z
Ripp
1
/* PAB */
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all these ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==FOLLOWING FILES MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names.
Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...)
The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do
setgscoperr MyNewProj
65d72791157f913e7ffbec242d7065c2b6262279
3021
3020
2018-01-10T09:09:40Z
Ripp
1
wikitext
text/x-wiki
Architecture of Gscope
To undestand how it is today we need a brief overview of the Historical Evolution or Evolutionary History of Gscope
==Gscope from the begining==
Odile Lecompte, Olivier Poch and Raymond Ripp had to annotate the genome of ''Pirococcus abyssi''.
Starting with the DNA sequence of ''Pyrococcsu abyssi'' (1765120 bases) we determined the genes and tried to find the function of each protein.
For that we needed to have an interactive visualization tool allowing to show the sequences, blast outputs, multiple alignments and many other things.
[[Images:GscopeBoard.png]]
==Naming and general organisation==
===PAB===
The Pabyssi gscope project handles nucleic and protein sequences. Each one is represented as a rectangular box on the GscopeBoard.
We called it a PAB (from Pyrococcus AByssi) (and were never able to find a more generic name ... it could be Box or SeqEntity or ???)
Each one had an id PAB0001, PAB0002, ... (Numerotation may not be consecutive)
The procedure ListeDesPABs returns the list of all these ids.
We use very often :
foreach Nom [ListeDesPABs] {
DoSomething $Nom
}
Since Pabyssi I didn't change the name of this central procedure.
To give a name to each 'PAB' of a project we use a '''prefix''' (ex. PAB or BOX or EHomsa) and a 1, 2, 3, 4 or 5 digits number (ex. PAB2359 or EHoma12345)
===Gscope File Organisation===
See more at [[Gscope Project]]
Each Gscope project (we call it MyProject) is located in one directories tree. Starting at RepertoireDuGenome (normally /genomics/link/MyProject)
Suppose the prefix is MP and it concerns 2345 proteins ... from MP00001 to MP2345
In directory /genomics/link/MyProject you'll find the directories
* nuctfa containing the fasta file for each nucleic sequence (from MP0001 to MP2345)
* nucembl containing the embl format
* prottfa containing the fasta file for each proteic sequence (from MP0001 to MP2345)
* protembl containing the embl format
* blastp
* ballast
* msf
* msfleon
* macsimXml
* macsimcRsf
thes subdirectories are the default directories containing the default corresponding file type '''BUT''' we could imagine to create different blasts for different datsbases. In that case we could have
* blastpProtall
* blastpUniref
and to keep the default directory we use link
blastp -> blastpProtall
The '''most important''' thing is to have directories containin blastp blastn msf in their name ... this allows Gscope to know which kind of file it contains. (unfortunately we don't use file extension !!!)
Another important subdirectory is '''infos'''. It contains the most used information of each PAB. These information are proveided by ExtraitInfo
ExtraitInfo EHomsa00001 lists all available infod
ExtraitInfo EHomsa00001 AC: return the AC field
===beton and fiches===
* the beton subdirectory contains thing which should never change
** typically the miniconfig file
* the fiches subdirectory contains things concerning the project itself
** bornesdespabs lists all PAB with their namme EHomsa00001 to EHomsa21006 and their position on the GscopeBoard
** lesgenomescomplets gives the list of the interesting complete genomes (mainly an empty list)
** niag.txt contains the lookup table between the GscopeId EHomsa12345, the Uniprot id MET_HUMAN, the Uniprot access Q86W50 and the genename METTL16
** MyGenesFromGo.txt
** MyGOsFromGenes.txt
** etc.
==FOLLOWING FILES MUST BE THERE==
Notice that each Gscope project must have
* a project name '''MyProject''' (the name of the directory /genomics/link/MyProject)
* a /genomics/link/MyProject/beton/'''miniconfig''' file
* the /genomics/link/fiches/'''bornesdespabs
'''
otherwize Gscope can't start but asks you to give the information to create thes compulsory data.
Notice that '''all''' GScope Projects are located in /genomics/link therefore they must have '''different''' project names.
Notice also that the project name is absolutely not linked to the prefix (... it's only a habbit ...)
The project name is only the name of the directory in /genomics:Link therefore you can change the name of the directory whenever you want (ie. MyNewProj) ... but dont't forget to do
setgscoperr MyNewProj
ee3c3ced0700ef49ca0a629df2468accfc1bda34
File:GscopeBoard.png
6
1447
3002
2017-11-13T13:18:18Z
Ripp
1
The GscopeBoard gives interactive access to each protein.
wikitext
text/x-wiki
The GscopeBoard gives interactive access to each protein.
0ff6b472b209c8a101fd954a13a27f9e7891e131
Café des sciences
0
1322
3031
2977
2018-01-23T09:49:08Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Tiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis 1999.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
a640bc2e6157da5822c4f5c806bcc06ebb216203
GscopeSql
0
1419
3032
2621
2018-01-23T19:27:28Z
Ripp
1
wikitext
text/x-wiki
GscopeSql how to access postgresql and mysql databases.
Tous les procédures de connexion et d'accès sont disponibles et faciles d'utilisation: (voir
[http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_canalsql.tcl gscope_canalsql.tcl]
et
[http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_sql.tcl gscope_sql.tcl])
<source lang="tcl">
CanalSqlGenoret (ou CanalSql [ConnInfoForDatabase Genoret] ou Gx ou Dbgs ou FedLord ou ...)
set Resultat [SqlExec Query Quoi Clear] (Quoi = "GetFirstValue" ou "GetList" ou "GetHandle" ou "-list" ou "-flatlist")
CanalSqlDisconnect
</source>
Il detecte tout seul s'il s'agit de postgresql, mysql ou sqlite. Du coup les commandes simples SELECT, INSERT, UPDATE, DELETE sont les mêmes.
En général les SELECT se font très simplement par
<source lang="tcl">
foreach {a b c} [SqlExec "select A,B,C from table" "GetList"] { ... }
</source>
On peut aussi récupérer le 'handle' pour faire des choses plus savantes.
En MYSQL on peut faire SqlExec mysqlinfo ... bref les vraies commandes mysql (voir [http://www.ucl.ac.uk/is/mysql/tcl/ MySql Tcl]).
c4c4343d68ba9c1f60b1084605f34e606ae89e8c
Gscope
0
1287
3035
3034
2018-01-23T19:33:09Z
Ripp
1
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
===Gscope Procedures===
See some very important [[Gscope Procedures]]
===GscopeSql===
* [[GscopeSql]] how to access our postgresql, mysql and sqlite databases
===Gscope Documentatiopn Project (from Benjamin Linard)===
* Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* YOu can execute any procedure of GScope
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
175f340357d42444a2e422c72f09730de0013b58
3054
3035
2018-01-27T11:06:18Z
Ripp
1
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
===Gscope Procedures===
See some very important [[Gscope Procedures]]
===GscopeSql===
* [[GscopeSql]] how to access our postgresql, mysql and sqlite databases
===Gscope Documentatiopn Project (from Benjamin Linard)===
* Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* You '''can execute any procedure''' of Gscope as command line *** THE BIGGEST IDEA I HAD ***
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
260a38b6488e2cac66a45744dea15b4d2f5af787
3055
3054
2018-01-27T11:06:47Z
Ripp
1
/* Normal usage with setgscoperr */
wikitext
text/x-wiki
Please visit also the private wiki Lbgiki [http://lbgi.igbmc.fr/lbgiki/index.php/Gscope Gscope]
==What is Gscope ?==
* Gscope is an integrated platform allowing the analysis of all kind of genomic data.
* Gscope is written in Tcl/Tk and runs on all systems.
* Gscope is specially designed to perform high throughput analysis.
* Gscope is mainly composed of
** all tools necessary to create the basic data
** analysis tools
** visualisation interface
* it allows also
** the creation and feeding of SQL relational databases
** the quering and display of the available information through a web based interface ([http://www-bio3d-igbmc.u-strasbg.fr/~ripp/cgi-bin/gsceop_html_server.tcsh Wscope])
==Gscope Documentation==
===Gscope Procedures===
See some very important [[Gscope Procedures]]
===GscopeSql===
* [[GscopeSql]] how to access our postgresql, mysql and sqlite databases
===Gscope Documentatiopn Project (from Benjamin Linard)===
* Please visit also the private Wiki [http://lbgi.fr/lbgiki/index.php/GDP Gscope Documentation Project]
==Usage==
===Normal usage with setgscoperr===
* Gscope works on a [[Gscope Project]] (a complete genome, a set of proteins, a set of genes, etc.)
* To run Gscope you need to define the corresponding project.
setgscoperr ''MyProject''
gscope
* If the project already exists the [[Gscope Environment Variables]] are set.
* If it concerns a new project the directories are created and the variables are set. (see [[New Gscope Project]])
* You '''can execute any procedure''' of Gscope as command line '''*** THE BIGGEST IDEA I HAD ***'''
gscope puts ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result and stops
gscope putl ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute, displays the result joining all elements of the list with \n and stops
gscope exe ProcToExecute Arg1 Arg2 Arg3 #rR executes ProcToExecute and stops
gscope putsandcontinue ProcToExecute Arg1 ... #rR same as before but doesn't stop
gscope yes ProcToExecute Arg1 Arg2 Arg3 #rR doen't ask any question using the default response and runs in batch mode
* if you want to run Gscope in batch mode (as for example BlastPPourTous)
glance BlastPPourTous
glance BlastPPourTous 8
glance "BlastPPourTous All /blast/uniref90" 12
if the command is more then one word you have to use " "
the last number says how many process to run simultaneously (4 by default)
===You can run gscope without setgscoperr===
Since 2010/08/26 it is possible to run directly gscope
/home/ripp/gscope/bin/gscope '''-project''' ''MyProject'' puts Command arg1 arg2 arg3
and if you are shure not to use Tk
/home/ripp/gscope/bin/gscope -project ''MyProject'' '''-notk''' puts Command arg1 arg2 arg3
==Gscope has some specific applications==
* [[Gscope Clonage]] to design, order and manage oligos for [[Structural Genomics]], it's a first step to a LIMS
==How it works==
* Main [[Architecture of Gscope]]
f665008863fc63d97ac99b9bb25a6cde93505acc
Gscope Procedures
0
1418
3036
3030
2018-01-23T19:44:29Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==OrthoInspector==
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. APrès on a recommencé mais on ne prenant pas tous le monde ... il a fallu nommer les organismes, etc.
voir [[OrthoInspector]]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==GeneNames==
Gscope knows a lot about [[GeneNames]]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
e971aac792169da16f4f5eeed4e79a24b0b0cda2
3037
3036
2018-01-23T19:45:09Z
Ripp
1
wikitext
text/x-wiki
You'll find here description about some important Gscope Procedures
see all procedures with [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLesProcs Gscope Chez le Psy]
==OrthoInspector==
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
voir [[OrthoInspector]]
==proc BoutADNDeUcsc==
Marche très bien ! :-)
* Sur /genomics/link/UCSCGenomes on trouve des répertoires avec différents organismes (2018/01/10 Caenorhabditis_elegans, Drosophilia_melanogaster, Rattus_norvegicus, Danio_rerio, Homo_sapiens, Mus_musculus)
* Chaque réperoirte contient un ensemble de BigZips qui contiennent eux-mêmes des fichiers de séquence des chromosomes par exemple /genomics/link/UCSCGenomes/Homo_sapiens/bigZips200903/chr14.fa
* Souvent pour chaque organism on a un lien bigZips qui pointe sur le bigZips par defaut
* On a accès à tout ça par
proc BoutADNDeUcsc {{Deb ""} {Fin ""} {Orient ""} {Orga ""} {Chro ""} {BigZips ""}}
* Deb est la position de départ (on compte à partir de 1)
* Fin est la position de fin (on peut mettre 'end')
* Orient F pour Forward, R pour Reverse
* Orga à choisir parmi ceux cités ci-dessus
Mais il y a d'autres fonctionnalités qui permettent de lister ce qui existe
BoutADNDeUcsc
BoutADNDeUcsc Dir
BoutADNDeUcsc List of organisms
BoutADNDeUcsc List of bigZips
BoutADNDeUcsc List of bigZips Homo_sapiens
BoutADNDeUcsc List of links
BoutADNDeUcsc List normal fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc List all fasta Homo_sapiens - bigZips200903
BoutADNDeUcsc 23 2789 R Homo_sapiens chr1 bigZips200903
BoutADNDeUcsc 1 end F Homo_sapiens chr14 bigZips
==proc FromMacsim==
attention FromMacsim without S
With FromMacsim you can query any information from a Macsims XML file
FromMacsim can be called
* as a console command (it calls /biolo/wscope/cafedessciences/bin/qds Zero ... )
frommacsim /path/to/the/macsim.xml arg2 arg3
* within Gscope
FromMacsim Prefixe123 arg2 arg3
* with QuestionDeScicence (from any language i.e. python, etc.)
/biolo/wscope/cafedessciences/bin/qds Zero FromMacsim arg2 arg3
* from the web
FromMacsim without any argument gives you a help as follow
#rR FromMacsim permet d'interroger n'importe quel macsims au format XML
#rR on utilise DecortiqueUnMacsimXml qui crée pleins de variables globales
#rR la liste des variables globales existantes est accessible par
#rR FromMacsim FichierMacsims ListOfList
#rR FromMacsim FichierMacsims ListOfArray
#rR On indexe tout par le nom du fichier ou par le MD5 du Texte xml s'il est fourni
#rR Quand on interroge un Projet Gscope particulier (par exemple CilioCarta2014) le nom CIL123 suffit
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 AlnName
#rR FromMacsim CIL006 LNOrdali
#rR FromMacsim CIL006 ListOfList
#rR FromMacsim CIL006 Sequences get (rend la liste cle valeur cle valeur ...)
#rR FromMacsim CIL006 Sequences G1PUE7_MYOLU (rend la seqence)
#rR FromMacsim CIL006 MacsimsColor (rend la liste cle valeur cle valeur des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor names (rend les cles des Colorations utilisées)
#rR FromMacsim CIL006 MacsimsColor ConsGlob (rend le couple foreground background pour les Conservation Globales)
#rR FromMacsim CIL006 MacsimsColor Stock (rend les couleurs utilisées pour les Features)
#rR FromMacsim CIL006 MacsimsColor 4 (rend la quatrième couleur utilisée pour les Features)
#rR On peut mettre un nom complet de fichier
#rR FromMacsim /ici/oula/toto
#rR ou pour tout projet Gscope
#rR FromMacsim ProjetGscope/Prefixe12345 (qui évite de mettre /genomics/link/ProjetGscope/macsimXml/...)
==GeneNames==
Gscope knows a lot about [[GeneNames]]
==proc StringInteractome==
With a list of gene names, NM_xxxxxs, probeset_ids, etc. you'll get a [http://string.embl.de STRING] analysis as a set of files allowing the display of the network with [http://www.cytoscape.org Cytoscape]
Please see our wiki page for [[String]]
==proc Iterator==
See the source of [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&Iterator proc Iterator]
<source lang="tcl">
set Name [Iterator New Init $L0 $L1 $L2]
while {[Iterator $Name Next v0 v1 v2]} { ... } #rR sans $
#rR L2 is the fastest !!!!!!!!!!!!!!!!!!!!
#rR Attention lists are numbered from 0 to 2 (for the caller)
#rR but are from 2 to 0 in the proc
Iterator $Name Reset
Iterator $Name Destroy
set Info [Iterator Iterator Get ListOf Name]
set Info [Iterator $Name Get Current 2] #rR current index de L2
set Info [Iterator $Name Get Current All] #rR tous les current L0 L1 L2
set Info [Iterator $Name Get Max 0]
set Info [Iterator $Name Get Max All]
set Info [Iterator $Name Get Total Iter]
</source>
=GO=
Attention attention ! Depuis 2014/12/6 j'ai mis "biological_process" "cellular_component" "molecular_function" en TermType.
Du coup on récupère tout ... et peut-être trop. En plus ce n'est plus tellement compatible avec les mémorisation que je faisais avant un peu partout :'(
Ce qu'il faut savoir aussi c'est que la recherche des GO se fait en remontant vers les parents: quand un gène est à un noeud on le place artificiellement dans tous ses ancêtres.
==proc GoGetInFile {File args}==
Petite astuce qui consite à ranger le résulta de la commande args dasn un fichier ... ça nous évite de passer par Wscope au retour car GO2000 veut simplemnet créer le fichier pour s'en servir de mémoire tampon plus tard ... Désolé pour cet artifice.
==proc GoNext {UpDown Go}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoNext proc GoNext]
* GoNext returns its children if down, its parent if up (can be more than 1 parent)
* GoChildren Go is GoNext Down Go
* GoParents Go is GoNext Up Go
==proc GoGetFromGo {Go GENEofPFAMwhatyouneed JoinCar RecordsJoinCar UpDown}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl] See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGo proc GoGetFromGo]
* UpDown can be Up / Down / Here / -n (n levels Up) / 0 (Here) / n (n levels down) ... and if it starts with + we skip 0 (+1 is only children)
* GoGetFromGo starts from a GO and includes recursively all its children (ATTENTION we use ''Mus musculus'' by default) and return ''what you need'' about its GENEs or PFAMs
<source lang="tcl">
set ListOfGo [GoGetFromGo "protein binding" GO]
set ListOfGoWithAcc [GoGetFromGo "protein binding" GOacc]
set ListOfGoWithIdName [GoGetFromGo "GO:0005515" GOid,name]
set ListOfPfam [GoGetFromGo "protein binding" PFAM]
set ListOfPfamWithId [GoGetFromGo "protein binding" PFAMxref_key,id]
set ListOfPfamWithDesc [GoGetFromGo "GO:0005515" PFAMxref_key,xrefdesc]
set ListOfGene [GoGetFromGo "protein binding" GENE]
set ListOfGene [GoGetFromGo "protein binding" GENEsymbol]
set ListOfGeneWithDesc [GoGetFromGo "GO:0005515" GENEfull_name,symbol]
</source>
==proc GoGetFromGene {Gene GOwhatyouneed JoinCar RecordsJoinCar {Up ""}}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromGene proc GoGetFromGene]
* GoGetFromGene returns ''what you need'' about all its GO
if Up == "Up" each geen is also included recursilvely in the parent GOs
<source lang="tcl">
set ListOfGO [GoGetFromGene PAX6 GO]
set ListOfGOWithAcc [GoGetFromGene PAX6 GOacc]
set ListOfGOWithName [GoGetFromGene PAX6 GOacc,name]
set ListOfGOWithSource [GoGetFromGene PAX6 GOacc,a.source_db_id]
</source>
==proc GoGetFromGeneList {List GOwhatyouneed JoinCar RecordsJoinCar ListJoinCar {Up ""}}==
Same as GoGetFromGene but for a list of genes.
The return value is an indexed list of couples {gene=itsGOs} {gene=itsGOs} ...
==proc GoGetFromPfam {Pfam GOwhatyouneed JoinCar RecordsJoinCar}==
Several procs are concerned ... see the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?EVImm&FicheMoi&rR/gscope/gscope_go.tcl gscope_go.tcl]
See the source file [http://lbgi.fr/gag/cgi-bin/GscopeServer?Zero&AfficheLaProc&GoGetFromPfam proc GoGetFromPfam]
* GoGetFromGene returns ''what you need'' about all its GO
<source lang="tcl">
set ListOfGO [GoGetFromPfam PF09088 GO]
set ListOfGOWithAcc [GoGetFromPfam PF09088 GOacc]
set ListOfGOWithName [GoGetFromPfam PF09088 GOacc,name]
set ListOfGOWithSource [GoGetFromPfam PF09088 GOacc,a.source_db_id]
</source>
6ee1c7475d56f282be59c10cd1232fe1673bd817
OrthoInspector
0
1448
3038
2018-01-23T19:48:28Z
Ripp
1
Created page with "OrthoInspector Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes..."
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus
a4b95923ee7fdb05b12261009db086eb297ef1e0
3039
3038
2018-01-23T19:51:38Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_proteomes/
3bae1ebf0f98601104824f4121b0b4ec55373714
3040
3039
2018-01-23T19:53:57Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* Archaea
#* Bacteria
#* Eukaryota
#* Qfo
#* Transverse
#* Virus
48899819993cd78480c5b6fa1db13b10d5fece8d
3041
3040
2018-01-23T19:58:00Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope
#* Quand on travaille dans le projet Archaea la proc OiDomain rend Archaea
219d377626903ab8bd02d1b912842bd689a4cf56
3042
3041
2018-01-23T20:01:22Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Pour ne pas avoir de noms farfelus et surtout pour n epas avoir de noms trop longs
#* Quand on travaille dans le projet Archaea la proc OiDomain rend Archaea
061537efa2d78f54c3126825d7490cd2d6586223
3043
3042
2018-01-23T20:39:46Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le (petit) nom d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place OiCode et OIDomain ... et OiCodeForOiDomain
#* OiCode quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# il crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# il nomme les fasta des protéomes qui seront stockés dans ./NotaBene
93d97d2e54ad5b35d441342656c3cf29d61a5a41
3044
3043
2018-01-23T20:47:33Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le (petit) nom d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place OiCode et OIDomain ... et OiCodeForOiDomain
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# il crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# il donne un petit nom (d'où le OiCode) à chaque organisme et nomme aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 es tle nom du ficheir fasta avec le TaxId à la fin après le _ (important pour la suite)
Bles fasta des protéomes qui seront stockés dans ./NotaBene/
30cf10a0610345eaa546045a371f4a22e63c877d
3045
3044
2018-01-23T20:50:08Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# donne un petit nom (d'où le OiCode) à chaque organisme et nomme aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 es tle nom du ficheir fasta avec le TaxId à la fin après le _ (important pour la suite)
Bles fasta des protéomes qui seront stockés dans ./NotaBene/
b92c99616d024c634e802d687a676eb854bdbeb5
3046
3045
2018-01-23T20:53:10Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dasn ./NotaBene
3557ef55a2a38fd29ec4ef3ab607a23f2f8fb5c9
3047
3046
2018-01-23T20:58:43Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dasn ./NotaBene
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est très souvent appelé pour cela d'ailleurs
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
e9884e7caf9bd1881717e503741f22e243bd50ae
3048
3047
2018-01-23T21:02:13Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCoded''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dasn ./NotaBene
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
8399216a987f76e9792b1b5771cabff44d45b103
3049
3048
2018-01-23T21:04:26Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dans ./NotaBene
#*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc.
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
ec7f3aef631585e0608bfb656e8dcc27dad39afd
3050
3049
2018-01-23T21:07:25Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dans ./NotaBene
#*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc.
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
# Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :)
b5a21077ed2bbf4c9d86b3f8f6bf1732c3a52322
3051
3050
2018-01-23T22:16:13Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dans ./NotaBene
#*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc.
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
# Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :)
Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décrit ci-dessous
Résumons :
Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien))
Bref le protéomes sont bien nommés et bien créés dans ./NotaBene.
Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier).
Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl)
La proc OiSplit crée et rempli oip (c'est magique)
Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :)
Voilà je copie ce mail dans le Wiki
fb07cac948f3ddf714b5c67c447520daeb154a12
3052
3051
2018-01-23T22:17:10Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dans ./NotaBene
#*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc.
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
# Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :)
Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décris en résumé ci-dessous
Résumons :
Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien))
Bref le protéomes sont bien nommés et bien créés dans ./NotaBene.
Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier).
Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl)
La proc OiSplit crée et rempli oip (c'est magique)
Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :)
cec495da3aaa33dd32ee5d0c3c35186e694a1a53
3053
3052
2018-01-23T22:26:09Z
Ripp
1
wikitext
text/x-wiki
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
===Comment ça marche===
voir la proc OiMiseEnPlace dans gscope_orthoinspector.tcl
# Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
#* ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
#* Ces répertoires correspondent à ce qui est appelé '''OiDomain''' dans Gscope (voir plus loin)
#* Yannis y dépose les protéomes de chaque organisme
#* un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
# Comment gérer tous les noms des organismes ?
#* Le petit nom (que j'appelle '''OiCode''') d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
#* Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures '''OiCode''' et '''OIDomain''' ... et '''OiCodeForOiDomain'''
#* '''OiCode''' quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
#*# crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
#*# '''donne''' un petit nom (d'où le OiCode) à chaque organisme et '''nomme''' aussi le fichier qui contiendra le protéome en fasta :
#*#* BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
#*#* BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
#*# range le fasta dans ./NotaBene
#*# En fait une fois que le NotaBene est rempli OiCOde sert tout le temps après pour avoir la liste de OS ou OX etc.
#*#* OiCode ListOfAll OX ou OiCode ListOfAll OI ou OiCode ListOfAll OS ou OiCode ListOfAll OW ou OiCode ListOfAll Info
#*#* OiCode EHomsa FullFilePath ou OiCode EHomsa OX etc.
#* '''OiDomain''' permet d'interroger le domaine ou de le positionner.
#** si le projet Gscope est défini comme étant OnTraiteLike BacteriaProteome (voir beton/miniconfig) OiDomain rend Bacteria (ou Virus ou Qfo, etc...)
#** OiDomain est souvent appelé, entre autres par OiCode puor savoir dans quel domain on est.
#* Si on est dans un projet quelconque on peut forcer le domain en utilisant '''OiCodeForDomain''' Bacteria :)
# Une fois que tout est en place dans ./NotaBene la proc '''OiCreateOrganismXml''' Domaine crée organisms.xml dans ./NotaBene. Et Yannis est content :)
Pour la création du projet Gscope Qfo ... j'ai voulu écrire le mode d'emploi et j'ai essayé ce que j'avais écrit dans la proc OiMiseEnPlace... ça a marché. Je le décris en résumé ci-dessous
Résumons :
Pour Qfo ... j'ai créé le répertoire /genomics/link/OrthoInspector_Proteomes/Qfo et j'y ai mis les protéomes que Yannis avait mis dans QFO (je préfère utiliser Majuscule puis minuscules car c'est peut-être important .. je ne sais plus (j'ai d'aillleurs mis un test dans OiDomain car QFO (en majuscule) était pris en compte ... donc Yannis si tu pouvais le virer du répertoire ce serait bien))
Bref le protéomes sont bien nommés et bien créés dans ./NotaBene.
Après il faut créer le projet Gscope OIQ (pour Qfo) comme on a fait pour OIT (Tranverse) OiA (Archaea) OIB (Bacteria) ATTENTION les Eukaryota c'est bêtement OI et pas OIE (c'était le premier).
Tout est noté dans la proc MiseEnplace (gscope_orthoinspector.tcl)
La proc OiSplit crée et rempli oip (c'est magique)
Dans oip on met les blocs de proteome mais au lieu de les grouper par paquet de 500 il vaut mieux les mettre par organisme.. c'est d'aiilleurs par défaut maintenant car proc OiSplitSize le fait :)
bf8109db3fa229b3259ac0d5f682dafe97bf75c9
Café des sciences
0
1322
3056
3031
2020-03-11T09:41:41Z
Ripp
1
wikitext
text/x-wiki
Café des sciences (développé par Thiébaut Mochel et Raymond Ripp)
On dirait une usine à gaz mais ça marche du tonnerre depuis 1999.
Attention voir [[Tcl/Tk]] pour que le package Tcl http fonctionne avec le café des sciences
==Principe==
La relative lenteur du chargement de Gscope en mémoire nécessitait d’en faire un serveur fonctionnant de manière permanente.
Il est possible d’interroger ce serveur en lui demandant d’exécuter une procédure et de renvoyer son résultat.
Comme il est possible, à priori, d’utiliser plusieurs serveurs, il est nécessaire de les gérer.
Nous nous sommes rendus compte que l’organisation des programmes reflétait ce qui se passe, dans la réalité, lors d’une soirée dans un ''café des sciences'' :
''Un nombre indéterminé de curieux (ou '''clients''') veulent poser des questions et entendre les réponses d’un ensemble de '''savants''' invités à débattre de ce qu’ils savent. ''
''Le client demande à l’'''animateur''' du café de sciences à quel savant il doit s’adresser pour savoir telle ou telle chose…''
''L’animateur (qui connaît les savants) le recommande à un savant particulier pour éviter le chahut systématique dans ce type de réunion et le dialogue s’entame.''
''D’autres clients pourront avec d’autres questions profiter de l’enthousiasme grandissant du savant (il est lancé).''
''Dans notre cas, le savant « informatique » peut en « temps partagé » répondre à plusieurs clients.''
Nous avons implémenté ce concept en utilisant le système de sockets.
Une Socket permet à deux processus (qui peuvent résider sur deux machines différentes) de communiquer.
Un même processus peut communiquer éventuellement avec plusieurs autres « en même temps » à travers des canaux différents.
La connexion d’un processus client à un processus existant ne se fait pas directement sur décision du client, celui-ci doit demander à un processus maître, qui tourne déjà, de les mettre en relation.
Le client, s’il veut envoyer des ordres, demande d’abord au café l’identifiant du savant auquel il veut se connecter. Le café répond avec l’adresse IP et le port sur lequel le savant tourne. Le client peut ensuite se connecter au savant et lui envoyer des ordres. Le savant exécute ces ordres dans un interpréteur fils sécurisé. L’interpréteur sécurisé empèche le client d’exécuter certaines fonctions Tcl comme exec, empêchant ainsi un utilisateur de lancer des commandes dangereuses pour la sécurité de Wscope.
L’administrateur système peut gérer le café grâce à un programme de gestion. En s’adressant au café, il est par exemple possible d’obtenir la liste des savants qui tournent, de fermer le café ou de lister les questions posées.
Une implémentation de ce concept a été écrite entièrement en Tcl. Ceci permet au savant d’accéder directement à Gscope. Néanmoins, il est possible de changer de langage : par exemple, écrire la partie client en Java, C, ou autre permet d’accéder aux résultats de Gscope à partir de ces langages. D’autre part, si Gscope est porté vers un autre langage, la partie Wscope en Tcl sera immédiatement utilisable.
L’utilisation optimale du café des sciences est de faire communiquer des clients légers, par exemple le programme CGI sur un petit serveur Web, et de faire tourner la partie café sur une machine dédiée au service de données. Le café permet des gains de performance non négligeables en évitant le chargement de l’ensemble de Gscope (environ 300 000 lignes de code Tcl) à chaque requête CGI.
==Utilisation==
dans la suite :
HOST (optionnel) est par défaut soit alnitak ou star8 ça dépend de la science demandée
PORT (optionnel) est par défaut 20000
SCIENCE est en général un projet gscope mais ça peut être genoret ou tout autre programme qui se respecte
====en langage de commande====
* question_de_science HOST:PORT:SCIENCE COMMANDE
* qds HOST:PORT:SCIENCE COMMANDE
on peut mettre, par exemple
qds Pabyssi ListeDesPABs > MesORFs.txt
====dans gscope====
* QuestionDeScience HOST:PORT:SCIENCE COMMANDE
set Resultat [QuestionDeScience Pabyssi "ret FileMoi nuctfa PABY0025]
====par web====
* http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?SCIENCE&Mot1DeLaCommande&Mot2&Mot3
* http://lbgi.fr/gag/cgi-bin/gscope_html_server.tcsh?ProGS&Environ
06bd34ff15ff12cf45a73e820dcf5bd32e677dca
Main Page
0
1279
3057
3025
2020-03-11T09:42:52Z
Ripp
1
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]]
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
d5a63e1b3a1d4e2c354baccb92ca842d8ef3ce6c
Wscope
0
1429
3058
2766
2020-07-13T09:05:48Z
Ripp
1
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.igbmc.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi)
==GuideMoi==
The most common possible actions are listed BUT
The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc)
<source lang=tcl>
#put here the link and the text todispaly (separated by as many tabulations as you want, at least 1)
# line starting with # are skiped
# empty link and/or text are allowed
#Link Texte
[LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature
[WscopeScience]&Signal All Signals
[WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos )
[WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes
[WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics
[WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits
[WscopeScience]&AffichePof&AllPs All existing oligos
[WscopeScience]&AfficheVirtualPPCR All PCR products
[WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR)
[WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST)
[WscopeScience]&SpineSummaryOnWeb Spine Targets Summary
[WscopeScience]&OliWeb Order oligos (not yet available)
</source>
==FileMoi==
As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui])
<source lang=tcl>
#rR WscopeLinksFileMoi.txt
#Ref Text
[WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b>
[WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b>
[WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b>
[LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage
</source>
==RechercheMoi==
A textual search is done in all infos/BOXxxx files
The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]])
7084b4ec06237a860c8577087799d49d06ffeacc
3059
3058
2020-07-13T09:07:34Z
Ripp
1
wikitext
text/x-wiki
Wscope is the web interface of [[Gscope]]
It runs as cgi-bin and has access to almost all procedures of Gscope
http://lbgi.fr/gag/cgi-bin/GscopeServer?Science&Command&arg1&arg2 (Science is a Gscope Project, Command a procedure)
* http://lbgi.fr/gag/cgi-bin/GscopeServer lists all existing projects are listed
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science gives access to a guide (GuideMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FileMoi&BOX001 gives access to all information concerning BOX001 (FileMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&FicheMoi lists all summary files from directory fiches (FicheMoi)
* http://lbgi.fr/gag/cgi-bin/GscopeServer&Science&RechercheMoi allow textual or blast searching (RechercheMoi)
==GuideMoi==
The most common possible actions are listed BUT
The owner of the Gscope Project can add specific actions for his project by creating the file '''fiches/WscopeLinksGuideMoi.txt''' as for example : (notice the use of [WscopeScience] or LbgiUrl] or [PreFixe], etc)
<source lang=tcl>
#put here the link and the text todispaly (separated by as many tabulations as you want, at least 1)
# line starting with # are skiped
# empty link and/or text are allowed
#Link Texte
[LbgiUrl]/MeltingTemperatureBioPhp.php Calculate Melting Temperature
[WscopeScience]&Signal All Signals
[WscopeScience]&BrocOli&AllHtml BrocOli ( Broken Oligos = generic oligos )
[WscopeScience]&ShowRestrictionEnzyme Restriction Enzymes
[WscopeScience]&RestrictionEnzymesStatistics&ShowStatistics ... their Statistics
[WscopeScience]&RestrictionEnzymesStatistics&ShowHits ... their Hits
[WscopeScience]&AffichePof&AllPs All existing oligos
[WscopeScience]&AfficheVirtualPPCR All PCR products
[WscopeScience]&AfficheLesRec1 All Rec1 (ie pDONR)
[WscopeScience]&AfficheLesRec2 All Rec2 (ie pDEST)
[WscopeScience]&SpineSummaryOnWeb Spine Targets Summary
[WscopeScience]&OliWeb Order oligos (not yet available)
</source>
==FileMoi==
As for GuideMoi the owner can add specific actions for his BOXes by creating the file '''fiches/WscopeLinksFileMoi.txt''' (notice the use of $Qui or [Alias $Qui])
<source lang=tcl>
#rR WscopeLinksFileMoi.txt
#Ref Text
[WscopeServer]?ProGS&ShowCloning&$Qui Show Cloning=<b>All about oligos, PCR products, Recombinaison, etc.</b>
[WscopeServer]?ProGS&CheckRestrictionEnzymes&$Qui&All RestrictionEnzymes=<b>Check Restriction Enzymes for $Qui</b>
[WscopeServer]?ProGS&FileMoi&infos&$Qui SeqCheck=<b>See your sequence checking and other infos</b>
[LbgiUrl]/wikili/index.php/Gscope_Clonage Wiki Gscope=Tout ce que vous aimeriez connaitre sur Gscope Clonage
</source>
==RechercheMoi==
A textual search is done in all infos/BOXxxx files
The Blast search is done in the blast databases found in banques/ (see [[Blast On Gscope Project]])
59251b2912340d1a5a9c0cd85a04f09b3063b98e
GeneQuid
0
1449
3060
2020-07-15T16:31:59Z
Ripp
1
Created page with "GeneQuid est une implémentation du [CafeDesSciences] qui permet d'interroger rapidemetn et facilement les bases de données UniprotData, InterproData (entre autres...)"
wikitext
text/x-wiki
GeneQuid est une implémentation du [CafeDesSciences] qui permet d'interroger rapidemetn et facilement les bases de données UniprotData, InterproData (entre autres...)
a4196ac66fea513a2fdaf55804b94b0d246f1efe
3061
3060
2020-07-15T16:44:07Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
qgq signifie Question à GeneQuid
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345
5becd04b90abef195a7aacea4a1cab7bc3f6fc95
3062
3061
2020-07-15T16:44:56Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
# en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
qgq signifie Question à GeneQuid
# directement en Tcl
GeneQuid UniprotData P12345
# par web
http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345
714e5602e30d55be2a6d051c1caa661f20beb5e2
3063
3062
2020-07-15T16:46:21Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345
758f1ab9e9939e07c2249e9d52b7506a6aacfc46
3064
3063
2020-07-15T16:55:47Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
Pour voir ce qui est disponible
qgq Help
0e3a86d372264fe915381eb48977aead78fdd248
3065
3064
2020-07-15T16:57:47Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lggi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
Pour voir ce qui est disponible
qgq Help
les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples
be40596c582417161995e51cbb7a4a777d68280f
3066
3065
2020-07-15T16:58:57Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
http://lbgi.fr/wscoperr?GeneQuid&Help
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
Pour voir ce qui est disponible
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples
3cad7a68d4863cbce9839edfe1f319579e50343e
3067
3066
2020-07-15T17:00:33Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées snt appelable avec les paramètres indiqués, le petit help qui suit donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
fe10f19bc525c2ad7b0933e3baecf264e4a052b5
3068
3067
2020-07-15T17:01:08Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[CafeDesSciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
93cccd9df4edd8da22410ef935324fbed815e71a
3069
3068
2020-07-15T17:02:13Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est une implémentation en [[Café des sciences]] des programmes qui permettent d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences n efait que de lancer genequid en café des sciences
eec7289be0083a0e124729fbe7838fe561091ac3
3070
3069
2020-07-15T17:05:17Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences
a54a9e7f972fc4b3d54d2050c2f1fc005d7ac794
3071
3070
2020-07-15T17:06:01Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences
6a039f00f2b29acc1f34677adc73160df336dece
3079
3071
2020-09-14T16:04:08Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
=Résumé=
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
=Comment ça marche=
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences
ac3fd250f288fdfa9cc837a488a20544d3c0491e
3080
3079
2020-09-14T16:05:15Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
b944692591ef715dedbc607001a08643b733dab3
3081
3080
2020-09-14T16:19:41Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Il faut alors créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
gunzip Uniprot.dat.gz #rR on dezipe
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
eae647bc04f1a43836722269e7eaad72e14b8d09
3082
3081
2020-09-14T16:22:36Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Il faut alors créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
gunzip Uniprot.dat.gz #rR on dezipe
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
chmod -R 775 * #rR pour que tout le monde puisse les effacer
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
3f3086737a10d8a71645e1c7d218caa008494791
3083
3082
2020-10-23T16:12:33Z
Ripp
1
/* Pour les mises à jour */
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Il faut alors créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
#rR unzip Uniprot.dat.gz #rR on dezipe maittenatn dans genequid
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
chmod -R 775 * #rR pour que tout le monde puisse les effacer
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
b71f643832051ad56761ccac217ac3d622d3100f
3084
3083
2020-10-23T16:13:03Z
Ripp
1
/* Pour les mises à jour */
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Ce serait bien qu'il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Il faut alors créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
#rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
chmod -R 775 * #rR pour que tout le monde puisse les effacer
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
11544ca3946d2f6fa063f4ca5e107bd71c9aa87e
UniprotData
0
1450
3072
2020-07-15T17:19:46Z
Ripp
1
Created page with "UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl le programme [[GeneQuid]] permet l'interrogation rapide. GeneQuid a fai..."
wikitext
text/x-wiki
UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl
le programme [[GeneQuid]] permet l'interrogation rapide.
GeneQuid a fait l'indexation des ID et AC de toutes les fiches, et rend instantannément la ou les fiches ou champs qui lui sont demandés.
GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index.
En fonctionnement normal il ne se sert que du fichier Sqlite qui est lui-même indexé.
e4ef66e44bf1e4302e7c919a9e074347a8bcaa3f
3073
3072
2020-07-15T17:23:08Z
Ripp
1
wikitext
text/x-wiki
UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl
le programme [[GeneQuid]] permet l'interrogation rapide.
Lors de la création de la base GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index.
En fonctionnement normal GeneQuid ne se sert que du fichier Sqlite qui est lui-même indexé ce qui lui permet de rendre instantannément la ou les fiches ou champs qui lui sont demandés, et ce même s'il ne tournait pas lors de l'appel.
GeneQuid peut s'appeler en ligne de commande, en appel de procédure dans Gscope ou en web
lbgi.fr://wscoperr?GeneQuid&Help
c95b538e6ebee1f396c47c3cffe2351f1b6623a8
3074
3073
2020-07-15T17:23:28Z
Ripp
1
wikitext
text/x-wiki
UniprotData est la base de donnée Uniprot regroupant ici les fiches Embl de tout Swissprot et Trembl
le programme [[GeneQuid]] permet l'interrogation rapide.
Lors de la création de la base GeneQuid lit les 543GO de Uniprot.dat et crée un index (de 14GO) avec pour chaque ID ou AC la position dans ce ficher du début et de la fin de la fiche. Puis il crée une base Sqlite (22GO) avec cet index.
En fonctionnement normal GeneQuid ne se sert que du fichier Sqlite qui est lui-même indexé ce qui lui permet de rendre instantannément la ou les fiches ou champs qui lui sont demandés, et ce même s'il ne tournait pas lors de l'appel.
GeneQuid peut s'appeler en ligne de commande, en appel de procédure dans Gscope ou en web
http://lbgi.fr/wscoperr?GeneQuid&Help
c70614b7080f7173527a917f50102a5b6fe129b4
InterproData
0
1451
3075
2020-07-15T17:43:36Z
Ripp
1
Created page with "InterproData est interrogeable par [[GeneQuid]]. On rend les références InterPro d'un Id ou AC UniProt Ellle est créée et traitée comme [[UniprotData]]"
wikitext
text/x-wiki
InterproData est interrogeable par [[GeneQuid]]. On rend les références InterPro d'un Id ou AC UniProt
Ellle est créée et traitée comme [[UniprotData]]
9f612d482ddb0718bf2b0cf732b274030b00fccb
EleGen
0
1452
3076
2020-07-15T17:47:41Z
Ripp
1
Created page with "EleGen Eléments Génomiques .. Pour Homo sapiens C'est une procédure de [[gscope]] qui marche à merveille ! EleGen permet d'interrgoger les annotations des ELEments du..."
wikitext
text/x-wiki
EleGen Eléments Génomiques .. Pour Homo sapiens
C'est une procédure de [[gscope]] qui marche à merveille !
EleGen permet d'interrgoger les annotations des ELEments du GENome
EleGen Chr01 X ListOf Gn
EleGen Chr01 X NOTCH2 ListOfD
EleGen Chr01 X NOTCH2 ListOfF
EleGen Chr01 X NOTCH2 ListOfId
EleGen Chr01 X ListOf Id
EleGen Chr01 X ListOf All
EleGen Chr01 X exon:57053 D
EleGen Chr01 6 ListOf Id
^ the type can be 0 1 2 3 4 5 6 7 8 9 X
1049e340c4ae257c809d50f99db3a01f3aa86438
3077
3076
2020-07-15T17:51:10Z
Ripp
1
wikitext
text/x-wiki
EleGen Eléments Génomiques .. Pour Homo sapiens
C'est une procédure de [[gscope]] qui marche à merveille !
EleGen permet d'interrgoger les annotations des ELEments du GENome
EleGen Chr01 X ListOf Gn
EleGen Chr01 X NOTCH2 ListOfD
EleGen Chr01 X NOTCH2 ListOfF
EleGen Chr01 X NOTCH2 ListOfId
EleGen Chr01 X ListOf Id
EleGen Chr01 X ListOf All
EleGen Chr01 X exon:57053 D
EleGen Chr01 6 ListOf Id
^ the type can be 0 1 2 3 4 5 6 7 8 9 X
utilisable en procédure normale ou
* par le [[Café des sciences]]
qds Zero EleGen Chr01 X ListOf Id
* ou en web
http://lbgi.fr/wscoperr?Zero&EleGen&Chr01&X&ListOf&Gn
b90be5a1e3957ca952da465a818723c911df6221
3078
3077
2020-07-20T13:14:01Z
Ripp
1
wikitext
text/x-wiki
EleGen Eléments Génomiques .. Pour Homo sapiens
C'est une procédure de [[gscope]] qui marche à merveille !
EleGen permet d'interrgoger les annotations des ELEments du GENome
EleGen Chr01 X ListOf Gn
EleGen Chr01 X NOTCH2 ListOfD
EleGen Chr01 X NOTCH2 ListOfF
EleGen Chr01 X NOTCH2 ListOfId
EleGen Chr01 X ListOf Id
EleGen Chr01 X ListOf All
EleGen Chr01 X exon:57053 D
EleGen Chr01 6 ListOf Id
^ the type can be 0 1 2 3 4 5 6 7 8 9 X
#rR X=exon 9=FirstExon 8=5UTR 7=3UTR 6=Boundary 5=Promoter 4=Intron 3=1to5kb 2=Enhancer 1=Intergen (voir AnnotType)
#rR On crée aussi un Final qui contient ces types en mettant en priorité X puis 9 puis 8 ...
#rR le 9 8 7 sont sytématiquement écrasés par X car ce sont aussi des eXons
utilisable en procédure normale ou
* par le [[Café des sciences]]
qds Zero EleGen Chr01 X ListOf Id
* ou en web
http://lbgi.fr/wscoperr?Zero&EleGen&Chr01&X&ListOf&Gn
5e0e838aa8e49905ad56422a7024778ef905556e
GeneQuid
0
1449
3085
3084
2020-10-23T16:15:34Z
Ripp
1
/* Pour les mises à jour */
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ...
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Puis il lance la suite ... pour créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
#rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
chmod -R 775 * #rR pour que tout le monde puisse les effacer
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
45057e93286c4e54aacdef711e1cb40c66da60b6
3086
3085
2020-10-26T15:56:08Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
Mais il peut aussi être appelé par un tout programme tcl
source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid
set Reponse [Genequid UniprotData P12345]
==Résumé==
Pour voir ce qui est disponible (principalement UniprotData et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniprotData P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniprotData P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniprotData P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniprotData&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniprotData P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ...
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Il dépose Uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
Puis il lance la suite ... pour créer les idx et les bases Sqlite ... pour cela :
cd /commun/bics/UniProt/update
#rR unzip Uniprot.dat.gz #rR on dezipe maintenant dans genequid
setgenequidrr #rR on va travailler en local
genequid puts UniprotData P12345 "" . #rR mettre . en 3eme arg pour bien travailler en local dans update
qgq exit #rR il faut maintenant arrêter puis relancer le café des sciences
cd ..
mv production toto #rR avec des liens ce serait mieux ...
mv update production
mv toto update
qgq UniprotData P12345 #rR c'est reparti !
chmod -R 775 * #rR pour que tout le monde puisse les effacer
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
53924790e65f07fd86c69cc6f164d6a608ea7009
3087
3086
2020-10-28T09:42:16Z
Ripp
1
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
Mais il peut aussi être appelé par un tout programme tcl
source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid
set Reponse [Genequid UniProt P12345]
==Résumé==
Pour voir ce qui est disponible (principalement UniProt et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniProt P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniProt P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniProt P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniProt P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
ATTENTION C'EST PAS EXACTEMENT COMME CA QUE CA SE PASSE ...
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
et lance en interne GeneQuid sur pour créer les .idx et .dbsql
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
3cfe4b71620720c69d8e9451e1d50670669631b2
3088
3087
2020-10-28T09:43:41Z
Ripp
1
/* Pour les mises à jour */
wikitext
text/x-wiki
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
Mais il peut aussi être appelé par un tout programme tcl
source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid
set Reponse [Genequid UniProt P12345]
==Résumé==
Pour voir ce qui est disponible (principalement UniProt et InterproData)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniProt P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniProt P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniProt P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniProt P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
et lance en interne GeneQuid sur pour créer les .idx et .dbsql puis balance tout dans ./production
Même chose pour InterPro (comme le nomme Luc) et InterproData comme le veut GeneQuid ... le fichier à dézipper est protein2ipr.dat.gz
075fb65e92cf42135a8979d9ffaaa147719b6e3c
3089
3088
2020-10-28T10:45:29Z
Ripp
1
wikitext
text/x-wiki
Attention InterproData est maintenant InterPro, de même UniprotData est UniProt ou UniProtSw ou UniProtTrembl
GeneQuid est construit comme Gscope, c'est un programme indépendant. Il est aussi implémenté en [[Café des sciences]] ce qui permet d'interroger rapidement et facilement les bases de données [[UniprotData]], [[InterproData]], et autres...
Mais il peut aussi être appelé par un tout programme tcl
source [GeneQuidDir]/genequid_proc.tcl ; /home/ripp/wscoperr/genequid ou /biolo/wscope/genequid
set Reponse [Genequid UniProt P12345]
==Résumé==
Pour voir ce qui est disponible (principalement UniProt et InterPro)
http://lbgi.fr/wscoperr?GeneQuid&Help
les procédures qui sont listées sont appelables avec les paramètres indiqués, le petit help qui suit chaque proc donne quelques exemples
==Comment ça marche==
GeneQuid s'utilise
* en ligne de commande
/biolo/wscope/genequid/bin/qdsgenequid UniProt P12345
ou plus simplement après s'être mis dans l'environnement GeneQuid par setgenequid (en tcsh) ou module load genequid (en bash)
qgq UniProt P12345
(qgq signifie Question à GeneQuid)
* directement en Tcl
GeneQuid UniProt P12345
* par web
http://lbgi.fr/wscoperr?GeneQuid&UniProt&P12345
En fait GeneQuid est comme Gscope (il est d'ailleurs sourcé par Gscope)
ON peut faire
setgenequid ou setgenequidrr (dans ce cas on utilise /home/ripp/wscoperr/genequid, pour des tests parexemple)
genequid puts Help
genequid puts UniProt P12345
qgq (Question à GeneQuid) utilisant les café des sciences ne fait que de lancer genequid en café des sciences
==Pour les mises à jour==
Luc fait les mises à jour sur /commun/bics/UniProt ou InterPro,
Il dépose uniprot.dat.gz ou protein2ipr.dat.gz dans les répertoires ./update
et lance en interne GeneQuid sur pour créer les .idx et .dbsql puis balance tout dans ./production
Même chose pour InterPro le fichier à dézipper est protein2ipr.dat.gz
7615aa5c34a0583459ee31d26ba7d262238d45a4
Main Page
0
1279
3090
3057
2021-09-22T12:19:37Z
Ripp
1
/* Thématiques et Projets */
wikitext
text/x-wiki
La base de données Mysql de Wikili (wikidb) est hébergée par kilida depuis le 2012/03/12. Raymond
==[[LBGI]]==
Vous êtes ici sur [http://lbgi.fr/wikili wikili] le serveur wiki du [[LBGI]] BioInformatique et Génomique Intégratives
Voir également [http://lbgi.fr/lbgiki lbgiki], le '''wiki privé''' resteint aux membres de l'équipe.
LBGI est un acronyme récursif qui signifie '''L'''BGI '''B'''ioinformatique et '''G'''énomique '''I'''ntrégratives
==Progiciels==
[[Quel outil utilise quel outil]] ?
* [[BIRD]] Biological Integration and Retrivial Data
* [[Gscope]] en général
** ... et [[Gscope Clonage]] en particulier
* [[Café des sciences]]
* [http://lbgi.fr/lbgiki/index.php/Subversion Subversion], notre outil de versionning
* obsolete: [[CVS]] Pour récupérer les dernières versions stables de programmes enregistrés sur le dépot.
* [[MACSIMS]]
* [[RReportGenerator]] .. c'est un graphical user interface pour des analyses statistiques avec rapports automatiques pour des applications de routine ..
* [[String]] nos outils pour s'en servir facilement
* [[Vep]] Variant Effect Predictor
* [[Neopipe]] Workflow for protein family analysis. A major update of [[PipeAlign]]
==Serveur et données==
* [[Configuration minimale]]
* [[Installation PHP]]
* Où en sont nos serveurs [[Star]], [[StarV]], [[Surf]], [[Lame1-14]] [[Kilida et Alnitak]] et [[Eyear]] et [[Moby]]
* [[Source de données]] ... tous nos serveurs et bases de données
* Tout sur [[UCSCGenomes]]
==Thématiques et Projets==
Voir aussi la liste mise à jour dynamiquement des [http://alnitak.fr/publicLBGI/organisationLBGI.php Thématiques du LBGI] et visiter le site [http://lbgi.fr/dbgs DBGS]
* [[MicroVesicles]] stage de Anaïs Nicol
* [[Alvinella]]
* [[Fed]] Federating data a common achitecture to manage websites such as
** [http://genoret.igbmc.fr/genoret/wiki Genoret]
** [[CSTB]]
** [[DBGS]]
** [[Gx]] and its database [[GxDb]]
** [[IdV]] for the Institut de la Vision
* [[ImAnno]] a web based annotation tool with a powerfull search engine
* [[GenoretGenes]]
* [[RetinoBase]]
* [[CADO4MI]]
* [[MAGOS]]
* [[JavOO]]
==Outils programmation et Unix==
* [[ssh]]
* [[Tcl/Tk]]
* [[Java]]
* [[Unix| aide Unix]]
* [[Html et Javascript]]
* [[logiciels]] disponibles sur les serveurs.
* [[Bibliothèque interne]]
ac99b482db74682b0f98fc3cd866d1d331bb6b18